การอนุมานโมเดลขนาดใหญ่

1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer

คำสำคัญ: Transformer, ความสนใจแบบไบนารี, การเร่งความเร็วด้วยฮาร์ดแวร์, การควอนไทซ์บิตต่ำสุด เมื่อกลไกความสนใจถูก “ลดขนาด” ถึงขีดสุด ความสำเร็จของสถาปัตยกรรม Transformer…

2026年3月24日

152000

การอนุมานโมเดลขนาดใหญ่

HiDrop: ทำลายข้อจำกัดการบีบอัดโทเค็นภาพของ MLLM บรรลุการรักษาประสิทธิภาพ 98.3% ที่อัตราการบีบอัด 90%

ด้วยความยาวบริบทที่รองรับโดยโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ (MLLM) ที่เพิ่มขึ้นอย่างต่อเนื่อง อินพุตภาพความละเอียดสูงและวิดีโอแบบยาวจะสร้างโทเค็นภาพ (Token) มากกว่าข้อความอย่างมาก ภ…

2026年3月23日

166000

การอนุมานโมเดลขนาดใหญ่

Meta MobileLLM-Flash: ออกแบบโมเดลภาษาขนาดใหญ่สำหรับอุปกรณ์พกพาใหม่ โดยยึดหลักความหน่วงเวลาจริงเป็นพื้นฐานสำคัญ

คำสำคัญ: โมเดลขนาดใหญ่ฝั่งอุปกรณ์, การรับรู้ความหน่วงเวลา, ฮาร์ดแวร์ในวงจร, การค้นหาโครงสร้าง, ความสนใจแบบผสม เมื่อคุณถามผู้ช่วย AI บนโทรศัพท์มือถือ แล้วรอ… 1 วินาที, 2 วินาท…

2026年3月23日

146000

การอนุมานโมเดลขนาดใหญ่

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่…

2026年3月17日

184000

การอนุมานโมเดลขนาดใหญ่

MiroMind กลับมาแล้ว! MiroThinker-1.7 ตัวแทนอัจฉริยะด้านการอนุมานขั้นสูง ครองอันดับหนึ่งหลายรายการใน SOTA ประสิทธิภาพการทำนาย F1 จากการทดสอบจริงเหนือกว่า ChatGPT

นกกระสา ส่งมาจาก 凹非寺 ทีมโมเดลขนาดใหญ่ MiroMind นำโดยเฉิน เทียนเฉียว ได้เปิดตัวตัวแทนปัญญาประดิษฐ์เชิงอนุมานรุ่นใหม่อย่างเป็นทางการ: MiroThinker-1.7 และ MiroThinker-H1 “หนัก&#…

2026年3月16日

158000

การอนุมานโมเดลขนาดใหญ่

แพลตฟอร์ม FPGA ราคา 150 ดอลลาร์สหรัฐ ดำเนินการอนุมานโมเดล MoE ขนาด 30B บนอุปกรณ์ Edge ด้วยความเร็วถอดรหัส 18 โทเค็น/วินาที ทำลายขีดจำกัดด้านต้นทุนและประสิทธิภาพ

คำสำคัญ: เครื่องเร่งความเร็ว FPGA, โมเดลผู้เชี่ยวชาญแบบผสม (MoE), การปรับใช้ที่ขอบ, การอนุมานต้นทุนต่ำ, การเพิ่มประสิทธิภาพ GEMV ด้วยต้นทุนวัสดุ 150 ดอลลาร์และความเร็วในการถอดรหัส …

2026年3月16日

149000

การอนุมานโมเดลขนาดใหญ่

ความก้าวหน้าใหม่ในการออกแบบฮาร์ดแวร์และซอฟต์แวร์ LLM แบบครบวงจร: การสร้างแบบจำลอง Roofline เผยสถาปัตยกรรม Pareto ที่ดีที่สุด เพิ่มประสิทธิภาพการอนุมัติ 19.42%

คำสำคัญ: ภาษาโมเดลขนาดใหญ่ฝั่งอุปกรณ์, การสร้างแบบจำลอง Roofline, การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์, กฎการปรับขนาด, ความเหมาะสมแบบพาเรโต, การค้นหาโครงสร้าง ส่วนที่ 1: กฎการ…

2026年3月15日

161000

การอนุมานโมเดลขนาดใหญ่

AgentInfer: หัวเว่ยโนอาห์ อาร์ค แล็บ เปิดตัวเฟรมเวิร์กการเร่งความเร็วแบบเอนด์ทูเอนด์สำหรับเอเจนต์อุตสาหกรรม แก้ไขกับดักสามประการในการนำการอนุมานไปปฏิบัติ

เอเจนต์โมเดลขนาดใหญ่กำลังก้าวจากการสาธิตไปสู่การประยุกต์ใช้ในระดับการผลิต และกำลังเผชิญกับความท้าทายของเวิร์กโฟลว์จริง เช่น การให้เหตุผลหลายรอบ การเรียกใช้เครื่องมือ ความจำบริบทยาว…

2026年3月13日

174000

การอนุมานโมเดลขนาดใหญ่

LINVIDEO: ไม่ต้องฝึกข้อมูลใหม่ ตัวแบบแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า ความก้าวหน้าใหม่ใน CVPR 2024

ไม่ต้องฝึกข้อมูลใหม่ โมเดลแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า: ความก้าวหน้าใหม่ใน CVPR 2024 การสร้างวิดีโอได้เข้าสู่ยุคขนาดใหญ่ แต่ต้นทุนการคำนวณที่ตามมาก็เพิ่มขึ้นอย่างรว…

2026年3月10日

165000

การอนุมานโมเดลขนาดใหญ่

Parallel-Probe: การปฏิวัติประสิทธิภาพการอนุมานแบบขนานในโมเดลขนาดใหญ่ ลดการสูญเสียการคำนวณลง 35.8%

เมื่อการให้เหตุผลของโมเดลขนาดใหญ่เข้าสู่ยุคแห่งการคิดแบบขนาน ปัญหาสำคัญหนึ่งก็ปรากฏขึ้น: ในกระบวนการให้เหตุผลแบบขนาน ทรัพยากรการคำนวณจำนวนมากถูกใช้ไปกับเส้นทางการคิดที่ไม่จำเป็นต้อ…

2026年3月7日

176000