วิศวกรรมโมเดลขนาดใหญ่

จาก Dynamic Computation ไปสู่ Static Lookup: STEM ปรับโครงสร้างกลไกความจำของ Transformer อย่างไร

ในช่วงไม่กี่ปีที่ผ่านมา ด้วยการเพิ่มขึ้นอย่างต่อเนื่องของขนาดและความหนาแน่นของความรู้ในโมเดลภาษาขนาดใหญ่ นักวิจัยเริ่มกลับมาคิดทบทวนถึงปัญหาพื้นฐานที่สำคัญยิ่งขึ้น: พารามิเตอร์ในโม…

2026年3月9日

173000

วิศวกรรมโมเดลขนาดใหญ่

นักวิทยาศาสตร์ AI ไขปริศนาคณิตศาสตร์ใน 30 นาที! สแตนฟอร์ดใช้เอเจนต์อัจฉริยะ ‘ตัวแทน’ ไอน์สไตน์และไฟน์แมน ค้นพบคำตอบที่ดีที่สุดใหม่สำหรับปัญหาของแอร์เดิช

การใช้ AI โดยเฉพาะโมเดลภาษาขนาดใหญ่และเอเจนต์อัจฉริยะในการแก้ปัญหาคณิตศาสตร์ กำลังกลายเป็นเทรนด์ใหม่ในแวดวงวิจัย ล่าสุด รองศาสตราจารย์ James Zou จากมหาวิทยาลัยสแตนฟอร์ด และนักวิจัย…

2026年3月9日

181000

วิศวกรรมโมเดลขนาดใหญ่

บิดาแห่ง GAN เอียน กู๊ดเฟลโลว์ ร่วมกับคริส แมนนิงก์ ผู้บุกเบิก NLP ออกมาแสดงความเห็นอย่างหนักแน่น: การแสดงเชิงสัญลักษณ์และข้อมูลเกม คือเส้นทางที่ดีที่สุดในการสร้างโมเดลโลกหลายรูปแบบ

เอียน กู๊ดเฟลโลว์ ผู้ที่เงียบหายไปนาน ในที่สุดก็ปรากฏตัวอีกครั้ง นักวิจัยผู้เสนอแนวคิด Generative Adversarial Networks (GAN) คนนี้ เคยเป็นผู้เปิดฉากคลื่นลูกแรกของเทคโนโลยีสร้างสรรค…

2026年3月8日

176000

วิศวกรรมโมเดลขนาดใหญ่

การผสาน LLM กับการเรียนรู้แบบเสริมกำลัง: เปิดศักราชใหม่ของระบบแนะนำอัจฉริยะ บทวิจารณ์เชิงระบบฉบับแรกเผยแพร่แล้ว

การเรียนรู้แบบเสริมกำลัง (RL) จัดระบบการแนะนำเป็นกระบวนการตัดสินใจแบบลำดับ ซึ่งสนับสนุนการเพิ่มประสิทธิภาพของผลประโยชน์ระยะยาวและตัวชี้วัดที่ไม่ต่อเนื่อง เป็นหนึ่งในกระบวนทัศน์การส…

2026年3月3日

176000

วิศวกรรมโมเดลขนาดใหญ่

ไบต์แดนซ์และมหาวิทยาลัยชิงหว่าร่วมกันสร้าง CUDA Agent: AI เขียนโค้ดไม่เพียงแต่ถูกต้อง แต่ยังเร็วกว่าผู้เชี่ยวชาญมนุษย์ถึง 40%

เมื่อเร็วๆ นี้ ทีม Seed ของ ByteDance และนักวิจัยจาก AIR แห่งมหาวิทยาลัย Tsinghua ได้ร่วมกันเผยแพร่งานวิจัยใหม่ชื่อ CUDA Agent ซึ่งได้รับความสนใจอย่างกว้างขวางในวงการสร้างโค้ด AI ง…

2026年3月3日

188000

วิศวกรรมโมเดลขนาดใหญ่

JTok: ขยายมิติใหม่ให้โมเดลขนาดใหญ่! มหาวิทยาลัยเจียวทงเซี่ยงไฮ้เสนอพารามิเตอร์ token-indexed เพิ่มประสิทธิภาพโดยไม่ต้องใช้พลังคำนวณเพิ่ม

ความท้าทายในการขยายขนาดโมเดลใหญ่ การพัฒนาของโมเดลใหญ่เป็นเวลานานได้ปฏิบัติตามกฎเหล็ก: ตาม Scaling Law เพิ่มพารามิเตอร์และข้อมูล ประสิทธิภาพของโมเดลจะเพิ่มขึ้นอย่างต่อเนื่องตามกฎกำล…

2026年3月3日

183000

วิศวกรรมโมเดลขนาดใหญ่

AI เอาชนะ CUDA Magic! ByteDance และ Tsinghua ร่วมสร้าง CUDA Agent, ใช้ Reinforcement Learning ของ Agent เพื่อสร้าง Kernel ที่มีประสิทธิภาพสูง

คำสำคัญ: การสร้างเคอร์เนล CUDA, การเรียนรู้แบบเสริมกำลังด้วยเอเจนต์, การปรับปรุงประสิทธิภาพ, KernelBench, สภาพแวดล้อมเสริมทักษะ ในระดับล่างของโครงสร้างพื้นฐานการเรียนรู้เชิงลึก มีข…

2026年3月3日

194000

วิศวกรรมโมเดลขนาดใหญ่

คู่มือปฏิบัติการ Agentic RAG: การวิเคราะห์หกโหมดและการประยุกต์ใช้ระดับการผลิต

อธิบาย 6 รูปแบบ Agentic RAG ด้วยการแลกเปลี่ยนในการผลิตจริง การสาธิต RAG ส่วนใหญ่ทำงานได้ดีในสภาพแวดล้อมในอุดมคติ แต่เมื่อต้องเผชิญกับผู้ใช้จริง ปัญหาก็ตามมา: ค้นหาข้อมูลบริบทที่ไม่…

2026年3月1日

208000

วิศวกรรมโมเดลขนาดใหญ่

วิศวกรรมบริบท: 6 เทคโนโลยีที่สำคัญอย่างแท้จริงในปี 2026 (คู่มือฉบับสมบูรณ์)

Prompt Engineering ตายแล้ว Context Engineering คือวิธีที่ระบบการผลิตทำงานในปัจจุบัน ระบบ RAG ของคุณส่งคืนเอกสารที่สมบูรณ์แบบ คำสั่งของคุณก็ได้รับการขัดเกลาอย่างดี แต่โมเดลภาษาขนาดใ…

2026年2月28日

222000

วิศวกรรมโมเดลขนาดใหญ่

เส้นทางวิวัฒนาการของ Prompt Learning: จากระบบปรับปรุงแบบคงที่สู่ระบบวงจรปิด SIPDO ที่พัฒนาตนเอง

พรอมต์ (Prompt) ในฐานะอินเทอร์เฟซ กำหนดรูปแบบพฤติกรรมและขีดจำกัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) และระบบเอเจนต์โดยตรง ความเข้าใจและการควบคุมพรอมต์ (prompt) เป็นตัวกำหนดระดับคว…

2026年2月27日

193000