การอนุมานโมเดลขนาดใหญ่
-
1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer
คำสำคัญ: Transformer, ความสนใจแบบไบนารี, การเร่งความเร็วด้วยฮาร์ดแวร์, การควอนไทซ์บิตต่ำสุด เมื่อกลไกความสนใจถูก “ลดขนาด” ถึงขีดสุด ความสำเร็จของสถาปัตยกรรม Transformer…
-
HiDrop: ทำลายข้อจำกัดการบีบอัดโทเค็นภาพของ MLLM บรรลุการรักษาประสิทธิภาพ 98.3% ที่อัตราการบีบอัด 90%
ด้วยความยาวบริบทที่รองรับโดยโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ (MLLM) ที่เพิ่มขึ้นอย่างต่อเนื่อง อินพุตภาพความละเอียดสูงและวิดีโอแบบยาวจะสร้างโทเค็นภาพ (Token) มากกว่าข้อความอย่างมาก ภ…
-
Meta MobileLLM-Flash: ออกแบบโมเดลภาษาขนาดใหญ่สำหรับอุปกรณ์พกพาใหม่ โดยยึดหลักความหน่วงเวลาจริงเป็นพื้นฐานสำคัญ
คำสำคัญ: โมเดลขนาดใหญ่ฝั่งอุปกรณ์, การรับรู้ความหน่วงเวลา, ฮาร์ดแวร์ในวงจร, การค้นหาโครงสร้าง, ความสนใจแบบผสม เมื่อคุณถามผู้ช่วย AI บนโทรศัพท์มือถือ แล้วรอ… 1 วินาที, 2 วินาท…
-
Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า
Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่…
-
MiroMind กลับมาแล้ว! MiroThinker-1.7 ตัวแทนอัจฉริยะด้านการอนุมานขั้นสูง ครองอันดับหนึ่งหลายรายการใน SOTA ประสิทธิภาพการทำนาย F1 จากการทดสอบจริงเหนือกว่า ChatGPT
นกกระสา ส่งมาจาก 凹非寺 ทีมโมเดลขนาดใหญ่ MiroMind นำโดยเฉิน เทียนเฉียว ได้เปิดตัวตัวแทนปัญญาประดิษฐ์เชิงอนุมานรุ่นใหม่อย่างเป็นทางการ: MiroThinker-1.7 และ MiroThinker-H1 “หนัก&#…
-
แพลตฟอร์ม FPGA ราคา 150 ดอลลาร์สหรัฐ ดำเนินการอนุมานโมเดล MoE ขนาด 30B บนอุปกรณ์ Edge ด้วยความเร็วถอดรหัส 18 โทเค็น/วินาที ทำลายขีดจำกัดด้านต้นทุนและประสิทธิภาพ
คำสำคัญ: เครื่องเร่งความเร็ว FPGA, โมเดลผู้เชี่ยวชาญแบบผสม (MoE), การปรับใช้ที่ขอบ, การอนุมานต้นทุนต่ำ, การเพิ่มประสิทธิภาพ GEMV ด้วยต้นทุนวัสดุ 150 ดอลลาร์และความเร็วในการถอดรหัส …
-
ความก้าวหน้าใหม่ในการออกแบบฮาร์ดแวร์และซอฟต์แวร์ LLM แบบครบวงจร: การสร้างแบบจำลอง Roofline เผยสถาปัตยกรรม Pareto ที่ดีที่สุด เพิ่มประสิทธิภาพการอนุมัติ 19.42%
คำสำคัญ: ภาษาโมเดลขนาดใหญ่ฝั่งอุปกรณ์, การสร้างแบบจำลอง Roofline, การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์, กฎการปรับขนาด, ความเหมาะสมแบบพาเรโต, การค้นหาโครงสร้าง ส่วนที่ 1: กฎการ…
-
AgentInfer: หัวเว่ยโนอาห์ อาร์ค แล็บ เปิดตัวเฟรมเวิร์กการเร่งความเร็วแบบเอนด์ทูเอนด์สำหรับเอเจนต์อุตสาหกรรม แก้ไขกับดักสามประการในการนำการอนุมานไปปฏิบัติ
เอเจนต์โมเดลขนาดใหญ่กำลังก้าวจากการสาธิตไปสู่การประยุกต์ใช้ในระดับการผลิต และกำลังเผชิญกับความท้าทายของเวิร์กโฟลว์จริง เช่น การให้เหตุผลหลายรอบ การเรียกใช้เครื่องมือ ความจำบริบทยาว…
-
LINVIDEO: ไม่ต้องฝึกข้อมูลใหม่ ตัวแบบแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า ความก้าวหน้าใหม่ใน CVPR 2024
ไม่ต้องฝึกข้อมูลใหม่ โมเดลแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า: ความก้าวหน้าใหม่ใน CVPR 2024 การสร้างวิดีโอได้เข้าสู่ยุคขนาดใหญ่ แต่ต้นทุนการคำนวณที่ตามมาก็เพิ่มขึ้นอย่างรว…
-
Parallel-Probe: การปฏิวัติประสิทธิภาพการอนุมานแบบขนานในโมเดลขนาดใหญ่ ลดการสูญเสียการคำนวณลง 35.8%
เมื่อการให้เหตุผลของโมเดลขนาดใหญ่เข้าสู่ยุคแห่งการคิดแบบขนาน ปัญหาสำคัญหนึ่งก็ปรากฏขึ้น: ในกระบวนการให้เหตุผลแบบขนาน ทรัพยากรการคำนวณจำนวนมากถูกใช้ไปกับเส้นทางการคิดที่ไม่จำเป็นต้อ…