วิศวกรรมโมเดลขนาดใหญ่
-
จาก Dynamic Computation ไปสู่ Static Lookup: STEM ปรับโครงสร้างกลไกความจำของ Transformer อย่างไร
ในช่วงไม่กี่ปีที่ผ่านมา ด้วยการเพิ่มขึ้นอย่างต่อเนื่องของขนาดและความหนาแน่นของความรู้ในโมเดลภาษาขนาดใหญ่ นักวิจัยเริ่มกลับมาคิดทบทวนถึงปัญหาพื้นฐานที่สำคัญยิ่งขึ้น: พารามิเตอร์ในโม…
-
นักวิทยาศาสตร์ AI ไขปริศนาคณิตศาสตร์ใน 30 นาที! สแตนฟอร์ดใช้เอเจนต์อัจฉริยะ ‘ตัวแทน’ ไอน์สไตน์และไฟน์แมน ค้นพบคำตอบที่ดีที่สุดใหม่สำหรับปัญหาของแอร์เดิช
การใช้ AI โดยเฉพาะโมเดลภาษาขนาดใหญ่และเอเจนต์อัจฉริยะในการแก้ปัญหาคณิตศาสตร์ กำลังกลายเป็นเทรนด์ใหม่ในแวดวงวิจัย ล่าสุด รองศาสตราจารย์ James Zou จากมหาวิทยาลัยสแตนฟอร์ด และนักวิจัย…
-
บิดาแห่ง GAN เอียน กู๊ดเฟลโลว์ ร่วมกับคริส แมนนิงก์ ผู้บุกเบิก NLP ออกมาแสดงความเห็นอย่างหนักแน่น: การแสดงเชิงสัญลักษณ์และข้อมูลเกม คือเส้นทางที่ดีที่สุดในการสร้างโมเดลโลกหลายรูปแบบ
เอียน กู๊ดเฟลโลว์ ผู้ที่เงียบหายไปนาน ในที่สุดก็ปรากฏตัวอีกครั้ง นักวิจัยผู้เสนอแนวคิด Generative Adversarial Networks (GAN) คนนี้ เคยเป็นผู้เปิดฉากคลื่นลูกแรกของเทคโนโลยีสร้างสรรค…
-
การผสาน LLM กับการเรียนรู้แบบเสริมกำลัง: เปิดศักราชใหม่ของระบบแนะนำอัจฉริยะ บทวิจารณ์เชิงระบบฉบับแรกเผยแพร่แล้ว
การเรียนรู้แบบเสริมกำลัง (RL) จัดระบบการแนะนำเป็นกระบวนการตัดสินใจแบบลำดับ ซึ่งสนับสนุนการเพิ่มประสิทธิภาพของผลประโยชน์ระยะยาวและตัวชี้วัดที่ไม่ต่อเนื่อง เป็นหนึ่งในกระบวนทัศน์การส…
-
ไบต์แดนซ์และมหาวิทยาลัยชิงหว่าร่วมกันสร้าง CUDA Agent: AI เขียนโค้ดไม่เพียงแต่ถูกต้อง แต่ยังเร็วกว่าผู้เชี่ยวชาญมนุษย์ถึง 40%
เมื่อเร็วๆ นี้ ทีม Seed ของ ByteDance และนักวิจัยจาก AIR แห่งมหาวิทยาลัย Tsinghua ได้ร่วมกันเผยแพร่งานวิจัยใหม่ชื่อ CUDA Agent ซึ่งได้รับความสนใจอย่างกว้างขวางในวงการสร้างโค้ด AI ง…
-
JTok: ขยายมิติใหม่ให้โมเดลขนาดใหญ่! มหาวิทยาลัยเจียวทงเซี่ยงไฮ้เสนอพารามิเตอร์ token-indexed เพิ่มประสิทธิภาพโดยไม่ต้องใช้พลังคำนวณเพิ่ม
ความท้าทายในการขยายขนาดโมเดลใหญ่ การพัฒนาของโมเดลใหญ่เป็นเวลานานได้ปฏิบัติตามกฎเหล็ก: ตาม Scaling Law เพิ่มพารามิเตอร์และข้อมูล ประสิทธิภาพของโมเดลจะเพิ่มขึ้นอย่างต่อเนื่องตามกฎกำล…
-
AI เอาชนะ CUDA Magic! ByteDance และ Tsinghua ร่วมสร้าง CUDA Agent, ใช้ Reinforcement Learning ของ Agent เพื่อสร้าง Kernel ที่มีประสิทธิภาพสูง
คำสำคัญ: การสร้างเคอร์เนล CUDA, การเรียนรู้แบบเสริมกำลังด้วยเอเจนต์, การปรับปรุงประสิทธิภาพ, KernelBench, สภาพแวดล้อมเสริมทักษะ ในระดับล่างของโครงสร้างพื้นฐานการเรียนรู้เชิงลึก มีข…
-
คู่มือปฏิบัติการ Agentic RAG: การวิเคราะห์หกโหมดและการประยุกต์ใช้ระดับการผลิต
อธิบาย 6 รูปแบบ Agentic RAG ด้วยการแลกเปลี่ยนในการผลิตจริง การสาธิต RAG ส่วนใหญ่ทำงานได้ดีในสภาพแวดล้อมในอุดมคติ แต่เมื่อต้องเผชิญกับผู้ใช้จริง ปัญหาก็ตามมา: ค้นหาข้อมูลบริบทที่ไม่…
-
วิศวกรรมบริบท: 6 เทคโนโลยีที่สำคัญอย่างแท้จริงในปี 2026 (คู่มือฉบับสมบูรณ์)
Prompt Engineering ตายแล้ว Context Engineering คือวิธีที่ระบบการผลิตทำงานในปัจจุบัน ระบบ RAG ของคุณส่งคืนเอกสารที่สมบูรณ์แบบ คำสั่งของคุณก็ได้รับการขัดเกลาอย่างดี แต่โมเดลภาษาขนาดใ…
-
เส้นทางวิวัฒนาการของ Prompt Learning: จากระบบปรับปรุงแบบคงที่สู่ระบบวงจรปิด SIPDO ที่พัฒนาตนเอง
พรอมต์ (Prompt) ในฐานะอินเทอร์เฟซ กำหนดรูปแบบพฤติกรรมและขีดจำกัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) และระบบเอเจนต์โดยตรง ความเข้าใจและการควบคุมพรอมต์ (prompt) เป็นตัวกำหนดระดับคว…