การอนุมานโมเดลขนาดใหญ่
-
Co-rewarding: ก้าวข้ามปัญหาคอขวดของการเรียนรู้ที่เข้มข้นด้วยการควบคุมดูแลตนเองและสร้างแรงบันดาลใจอย่างต่อเนื่องภายใต้ข้อมูลที่ไม่มีการระบุชื่อ Co-rewarding: Co-rewarding: Learning Neck of Self Administration and Enhanced Learning Co-rewarding…
งานวิจัยนี้มาจากกลุ่มการเรียนรู้เครื่องที่เชื่อถือได้และการอนุมานของมหาวิทยาลัยฮ่องกงแบปติสต์และมหาวิทยาลัยเซี่ยงไฮ้เจียวทง ซึ่งได้รับการยอมรับจาก ICLR 2026 ปัจจุบัน RLVR (Reinforc…
-
FlowPrefill: ฝ่าฟันคอขวดของเหตุผล LLM เพื่อเพิ่ม throughput 5.6x ด้วยการยึดระดับโอเปอเรเตอร์และมั่นใจว่า SLO ที่เข้มงวด
คำสำคัญ: ระบบบริการ LLM, การเติมล่วงหน้า, การอุดตันที่หัวแถว, _การจัดตารางที่รับรู้ SLO_, การแทรกแซงระดับโอเปอเรเตอร์, การจัดตารางแบบขับเคลื่อนด้วยเหตุการณ์ ขณะที่เรากำลังใช้แชทบอท…
-
กรอบ COMI: การบีบอัดข้อความยาวที่ชาญฉลาดที่อัตราการบีบอัดสูงผ่านการได้รับข้อมูลส่วนเพิ่ม
เหตุใดวิธีการบีบอัดบริบทที่มีอยู่จึง “พลิกคว่ำ” อย่างเป็นหมู่คณะเมื่ออัตราการบีบอัดสูง? เมื่อโมเดลต้องบีบอัดข้อความยาว 32K ให้เหลือเพียง 1K ประสิทธิภาพทำไมถึงลดลงอย่างร…
-
EmotionThinker: กรอบการเรียนรู้แบบเสริมกำลังแรกสำหรับการอนุมานอารมณ์ที่สามารถอธิบายได้ ทำให้ SpeechLLM เรียนรู้ที่จะ ‘อธิบายอารมณ์’
การรู้จำอารมณ์จากเสียงพูด (Speech Emotion Recognition, SER) ในอดีตมักยึดตามกระบวนทัศน์เดียวกัน: รับข้อมูลเสียงเข้า แล้วให้ป้ายกำกับอารมณ์ออกมา การตั้งค่านี้มีประสิทธิภาพในเชิงวิศวก…
-
สมดุลที่สมบูรณ์แบบระหว่างต้นทุนและประสิทธิภาพ: การทบทวนเชิงลึกของ Byte Doubao Seed 2.0 Lite ด้วยความแม่นยำ 73.9% และต้นทุนเพียง 5.4 หยวนต่อการเรียกใช้ 1,000 ครั้ง
ก่อนเทศกาลตรุษจีน Bytedance ได้เปิดตัวโมเดลขนาดใหญ่ชุด Seed 2.0 อย่างเป็นทางการ ในการประเมินก่อนหน้านี้ เราได้วิเคราะห์โดยละเอียดเกี่ยวกับรุ่นเรือธงของซีรีส์นี้ Doubao-Seed-2.0-pro…
-
hls4ml: การปฏิวัติคอมไพเลอร์ AI แบบโอเพนซอร์สสำหรับ FPGA ด้วยความหน่วงระดับไมโครวินาทีและประสิทธิภาพการใช้ทรัพยากรขั้นสูงสุด ใช้งานโมเดล PyTorch/Keras/ONNX ได้ด้วยคลิกเดียว
คำสำคัญ: การเร่งความเร็วด้วย FPGA, การสังเคราะห์ระดับสูง (HLS), การควอนไทซ์โมเดล, การออกแบบร่วมฮาร์ดแวร์-ซอฟต์แวร์, การอนุมานความหน่วงต่ำ, คอมไพเลอร์โอเพนซอร์ส เพียงไม่กี่บรรทัดของ…
-
LightRetriever: สร้างความเปลี่ยนแปลงครั้งใหญ่! สถาปัตยกรรมการค้นคืน LLM ที่เร็วขึ้นเป็นพันเท่า ขจัดภาระการคำนวณออกจากฝั่งการสืบค้นโดยสิ้นเชิง
ในปีที่ผ่านมา เทคโนโลยีการค้นคืนข้อความโดยใช้โมเดลภาษาขนาดใหญ่ (LLM-based Text Retrieval) ได้พัฒนาอย่างรวดเร็ว โดยโมเดล LLM Embedding หลักส่วนใหญ่มีพารามิเตอร์มากกว่า 7B พันล้านตัว…
-
ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA
ยังมีผู้เชี่ยวชาญด้านการผลิตชิปอีกหรือ? ชิปตัวล่าสุดที่เพิ่งเปิดตัว ขึ้นแท่นทันทีในรายการฮิตของซิลิคอนแวลลีย์ ด้วยความเร็วในการอนุมานสูงสุดถึง 17,000 โทเค็นต่อวินาที นี่หมายความว่า…
-
จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร
หากมองชีวิตเป็นเกม MMO แบบเปิดขนาดใหญ่ ณ เวลาที่เซิร์ฟเวอร์เกมเพิ่งอัปเดตครั้งใหญ่ กฎก็เปลี่ยนไป นับตั้งแต่ ChatGPT ปรากฏตัวอย่างน่าตื่นตาตื่นใจในปี 2022 โลกได้เปลี่ยนแปลงไปอย่างลึ…
-
Microsoft Re-TRAC Framework: ทำให้ AI Agents จดจำประสบการณ์ความล้มเหลว, โมเดล 4B ทำได้ดีกว่าโมเดลขนาดใหญ่
ลองนึกภาพว่าคุณให้ผู้ช่วย AI ใช้เครื่องมือค้นหาเพื่อสำรวจปัญหาที่ซับซ้อน ในการสำรวจครั้งแรก มันไปผิดทาง แต่ในครั้งที่สองและสาม มันยังคงเดินตามเส้นทางสำรวจผิดพลาดเดิมซ้ำอีก แม้ว่าคุ…