การเพิ่มประสิทธิภาพการอนุมาน LLM
-
แพลตฟอร์ม FPGA ราคา 150 ดอลลาร์สหรัฐ ดำเนินการอนุมานโมเดล MoE ขนาด 30B บนอุปกรณ์ Edge ด้วยความเร็วถอดรหัส 18 โทเค็น/วินาที ทำลายขีดจำกัดด้านต้นทุนและประสิทธิภาพ
คำสำคัญ: เครื่องเร่งความเร็ว FPGA, โมเดลผู้เชี่ยวชาญแบบผสม (MoE), การปรับใช้ที่ขอบ, การอนุมานต้นทุนต่ำ, การเพิ่มประสิทธิภาพ GEMV ด้วยต้นทุนวัสดุ 150 ดอลลาร์และความเร็วในการถอดรหัส …
-
FlowPrefill: ฝ่าฟันคอขวดของเหตุผล LLM เพื่อเพิ่ม throughput 5.6x ด้วยการยึดระดับโอเปอเรเตอร์และมั่นใจว่า SLO ที่เข้มงวด
คำสำคัญ: ระบบบริการ LLM, การเติมล่วงหน้า, การอุดตันที่หัวแถว, _การจัดตารางที่รับรู้ SLO_, การแทรกแซงระดับโอเปอเรเตอร์, การจัดตารางแบบขับเคลื่อนด้วยเหตุการณ์ ขณะที่เรากำลังใช้แชทบอท…