KV แคช
-
เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, แคช KV, การเรียนรู้แบบเสริมกำลัง, การขับไล่แคช, การให้เหตุผลบริบทยาว นับตั้งแต่สถาปัตยกรรม Transformer กำเนิดขึ้น แบบจำลองภาษาขนาดใหญ่ (LLMs) ได้ก้าว…
-
ปักกิ่ง-ชิงหว่าร่วมมือ DeepSeek ฝ่าขีดจำกัดการให้เหตุผลของ Agentic LLM! โครงการ DualPath โหลดแคช KV แบบสองเส้นทางเพิ่มประสิทธิภาพการประมวลผล 1.87 เท่า
คำสำคัญ: Agentic LLM, KV Cache, PD Separation, Storage I/O, Load Balancing ในช่วงไม่กี่ปีที่ผ่านมา รูปแบบการประยุกต์ใช้โมเดลภาษาขนาดใหญ่ (LLM) กำลังเปลี่ยนแปลงอย่างลึกซึ้ง LLM ในยุ…
-
Qualcomm QuoKA: ไม่ต้องฝึกฝน ไม่ขึ้นกับฮาร์ดแวร์ ลด KV 88% เร่งการอนุมาน 5 เท่า ปฏิวัติประสิทธิภาพการเติมล่วงหน้าของ LLM
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, ความสนใจแบบเบาบาง, การเติมล่วงหน้าแบบแบ่งกลุ่ม, การเลือก KV, การเร่งการอนุมาน ไม่ต้องฝึกฝน ไม่ต้องพึ่งฮาร์ดแวร์เฉพาะ ใช้คู่ KV เพียง 12% ก็ได้ผลลัพธ์…