การเร่งความเร็วด้วยฮาร์ดแวร์

การอนุมานโมเดลขนาดใหญ่

1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer

คำสำคัญ: Transformer, ความสนใจแบบไบนารี, การเร่งความเร็วด้วยฮาร์ดแวร์, การควอนไทซ์บิตต่ำสุด เมื่อกลไกความสนใจถูก “ลดขนาด” ถึงขีดสุด ความสำเร็จของสถาปัตยกรรม Transformer…

2026年3月24日
153000
ข่าวสารอุตสาหกรรม AI

ก้าวข้ามข้อจำกัดของ GPU: สถาปัตยกรรม d-PLENA NPU เร่งความเร็วการสุ่มตัวอย่างโมเดลแพร่กระจายขนาดใหญ่ได้ 2.53 เท่า

คำสำคัญ: dLLMs, NPU, การปรับปรุงการสุ่มตัวอย่าง, d-PLENA, GEMM โมเดลภาษาขนาดใหญ่แบบแพร่กระจาย (dLLM) เป็นโมเดลภาษาขนาดใหญ่ที่ผสมผสานคุณลักษณะการกำจัดสัญญาณรบกวนแบบวนซ้ำของโมเดลแพร่…

2026年2月10日
194000

การเร่งความเร็วด้วยฮาร์ดแวร์

1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer

ก้าวข้ามข้อจำกัดของ GPU: สถาปัตยกรรม d-PLENA NPU เร่งความเร็วการสุ่มตัวอย่างโมเดลแพร่กระจายขนาดใหญ่ได้ 2.53 เท่า