การอนุมานบริบทยาว
-
เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, แคช KV, การเรียนรู้แบบเสริมกำลัง, การขับไล่แคช, การให้เหตุผลบริบทยาว นับตั้งแต่สถาปัตยกรรม Transformer กำเนิดขึ้น แบบจำลองภาษาขนาดใหญ่ (LLMs) ได้ก้าว…