การเร่งความเร็วด้วยฮาร์ดแวร์
-
1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer
คำสำคัญ: Transformer, ความสนใจแบบไบนารี, การเร่งความเร็วด้วยฮาร์ดแวร์, การควอนไทซ์บิตต่ำสุด เมื่อกลไกความสนใจถูก “ลดขนาด” ถึงขีดสุด ความสำเร็จของสถาปัตยกรรม Transformer…
-
ก้าวข้ามข้อจำกัดของ GPU: สถาปัตยกรรม d-PLENA NPU เร่งความเร็วการสุ่มตัวอย่างโมเดลแพร่กระจายขนาดใหญ่ได้ 2.53 เท่า
คำสำคัญ: dLLMs, NPU, การปรับปรุงการสุ่มตัวอย่าง, d-PLENA, GEMM โมเดลภาษาขนาดใหญ่แบบแพร่กระจาย (dLLM) เป็นโมเดลภาษาขนาดใหญ่ที่ผสมผสานคุณลักษณะการกำจัดสัญญาณรบกวนแบบวนซ้ำของโมเดลแพร่…