การอนุมานโมเดลขนาดใหญ่
-
ความจริงเกี่ยวกับภาพหลอนของโมเดลขนาดใหญ่แบบมัลติโมดอล: หลังคำเปลี่ยนทิศทางมัก ‘คิดผิด’ มากที่สุด วิธีใหม่ LEAD ใช้การถอดรหัสเอนโทรปีแฝงเพื่อแก้ปัญหายาก
【บทนำ】 การวิจัยพบว่าปัญหาการหลอน (hallucination) ในโมเดลขนาดใหญ่แบบหลายรูปแบบ (multimodal) นั้น มักไม่ได้เกิดจากการ “มองภาพผิด” แต่เกิดจากการ “คิดเอียง” ในช…
-
Apple อนุมัติไดรเวอร์ TinyGPU อย่างเป็นทางการ: ผู้ใช้ Mac สามารถเชื่อมต่อการ์ดจอ NVIDIA/AMD ภายนอกเพื่อรัน AI Inference ได้โดยไม่ต้องปิด SIP
คำสำคัญ: AI, Apple, GPU, ฮาร์ดแวร์, การอนุมาน, โอเพ่นซอร์ส ออกแบบมาเพื่อ AI โดยเฉพาะ นักเล่นเกมผิดหวังอีกครั้ง Apple อนุมัติไดรเวอร์ที่ให้ eGPU ของ AMD และ Nvidia ทำงานบน Mac ได้ —…
-
ทำลายข้อจำกัดด้านความสนใจ! FlatAttention Dataflow + การปรับปรุงการสื่อสารภายในชิปแบบรวมศูนย์ ช่วยให้ระบบระดับเวเฟอร์เพิ่มปริมาณการประมวลผลได้ 2.9 เท่า
คำสำคัญ: ระบบระดับเวเฟอร์, การอนุมานโมเดลภาษาขนาดใหญ่, โฟลว์ข้อมูล FlatAttention, การสื่อสารแบบรวมบนชิป, การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์ ด้วยการเติบโตอย่างรวดเร็วของความย…
-
ทีมจาก Tsinghua & CUHK เสนอ ColaVLA: การอนุมานการขับขี่อัตโนมัติไม่ต้องพึ่งข้อความอีกต่อไป การคิดในพื้นที่แฝงและการวางแผนแบบขนานเป็นชั้นนำพาราไดม์ใหม่
ในช่วงสองปีที่ผ่านมา การผสานการขับขี่อัตโนมัติกับโมเดลขนาดใหญ่ (โดยเฉพาะโมเดลภาษาที่ใช้การมองเห็น หรือ VLM) ได้กลายเป็นทิศทางการวิจัยที่เป็นที่นิยม แนวคิดพื้นฐานคือการใช้ความสามารถ…
-
SkipOPU: 突破ขีดจำกัดการอนุมานแบบไดนามิก FPGA เร่งความเร็วการปฏิวัติประสิทธิภาพโมเดลภาษาขนาดใหญ่
คำสำคัญ: โมเดลภาษาขนาดใหญ่, การอนุมานแบบไดนามิก, การเร่งความเร็วด้วย FPGA, การคำนวณแบบความแม่นยำผสม, การจัดการแคช KV ประสิทธิภาพการอนุมานของโมเดลภาษาขนาดใหญ่เผชิญกับความขัดแย้งพื้น…
-
ทีมสแตนฟอร์ดทำลายกำแพงการให้เหตุผลของโมเดลขนาดใหญ่: กรอบงาน SSD ทำให้การร่างและการตรวจสอบสามารถทำงานคู่ขนานได้ เพิ่มความเร็วการให้เหตุผล 2 เท่า
ในสาขาการอนุมานของโมเดลภาษาขนาดใหญ่ การถอดรหัสเชิงคาดการณ์ (Speculative Decoding, SD) ได้กลายเป็นเทคโนโลยีหลักในการเร่งการสร้าง แต่ขั้นตอนการร่าง (Drafting) และการตรวจสอบ (Verifica…
-
ลาก่อนการ์ดที่รุนแรง! FleetOpt ใช้ “การบีบอัดคือการกำหนดเส้นทาง” เพื่อแก้ปัญหาความลาดชันของต้นทุนคลัสเตอร์การอนุมาน LLM ประหยัดต้นทุน GPU ได้สูงสุด 82.4%
คำสำคัญ: การอนุมาน LLM, การวางแผนคลัสเตอร์, หน้าผาต้นทุน, การบีบอัดในฐานะการกำหนดเส้นทาง, คิว M/G/c เมื่อเราพูดถึงการอนุมานโมเดลขนาดใหญ่ (LLM) เรากำลังสนใจอะไรกันแน่? คือจำนวนโทเคน…
-
MixKV: ทำลายเพดานล่องหนของการบีบอัดแคช KV ทำให้การอนุมานบริบทยาวทั้งมั่นคงและรวดเร็ว
เพดานล่องหนของการบีบอัดแคช KV: เมื่อ “ความสำคัญ” พบกับ “ความซ้ำซ้อน” การอนุมานบริบทยาวได้กลายเป็นรูปแบบพื้นฐานของโมเดลภาษาภาพ (VLM) และโมเดลภาษาขนาดใหญ่ (LL…
-
Google TurboQuant อัลกอริทึมเปิดตัวอย่างน่าตื่นเต้น: บีบอัด KV Cache ได้ 6 เท่าโดยไม่สูญเสียความแม่นยำ การอนุมาน AI ก้าวสู่การปฏิวัติหน่วยความจำ
Google Research ได้นำเสนอผลงานวิจัยที่ก้าวล้ำในการประชุมวิชาการ ICLR 2026 ที่จะมาถึง โดยเปิดตัวอัลกอริทึมบีบอัดใหม่ชื่อ TurboQuant อัลกอริทึมนี้สามารถบีบอัด KV Cache ซึ่งเป็นส่วนที…
-
NCCL EP รวบรวมระบบนิเวศการสื่อสาร MoE: ทำลายความแตกแยก เร่งยุคใหม่ของการอนุมานโมเดลขนาดใหญ่
คำสำคัญ: MoE (Mixture-of-Experts), NCCL, การสื่อสาร GPU, การสื่อสารที่ริเริ่มจากอุปกรณ์ (Device-Initiated Communication), การอนุมานโมเดลขนาดใหญ่ บนเส้นทางสู่ปัญญาประดิษฐ์ทั่วไป ขนา…