MixKV: ทำลายเพดานล่องหนของการบีบอัดแคช KV ทำให้การอนุมานบริบทยาวทั้งมั่นคงและรวดเร็ว

2026年3月31日 am10:56 • การอนุมานโมเดลขนาดใหญ่ • 144 views

เพดานล่องหนของการบีบอัดแคช KV: เมื่อ “ความสำคัญ” พบกับ “ความซ้ำซ้อน”

การอนุมานบริบทยาวได้กลายเป็นรูปแบบพื้นฐานของโมเดลภาษาภาพ (VLM) และโมเดลภาษาขนาดใหญ่ (LLM) อย่างไรก็ตาม คอขวดประสิทธิภาพที่แท้จริงมักซ่อนอยู่ในแคชคีย์-ค่า (KV) ฝั่งการอนุมาน เมื่อความยาวบริบทเพิ่มขึ้น แคช KV จะขยายตัวเชิงเส้น ส่งผลให้การใช้หน่วยความจำและต้นทุนแบนด์วิดท์พุ่งสูงขึ้น และกดดันปริมาณงานของโมเดลอย่างรุนแรง

MixKV: ทำลายเพดานล่องหนของการบีบอัดแคช KV ทำให้การอนุมานบริบทยาวทั้งมั่นคงและรวดเร็ว

ดังนั้น การบีบอัดแคช KV จึงกลายเป็นความท้าทายทางวิศวกรรมที่หลีกเลี่ยงไม่ได้ แม้ว่าการบีบอัดจะช่วยประหยัดหน่วยความจำได้อย่างมีประสิทธิภาพ แต่ก็มักมาพร้อมกับความเสี่ยง “ยิ่งบีบอัดยิ่งไม่เสถียร” ทีมวิจัยจาก EPIC Lab มหาวิทยาลัยเจียวทงเซี่ยงไฮ้ชี้ให้เห็นว่า รากเหง้าของปัญหาอยู่ที่ข้อบกพร่องพื้นฐานของเกณฑ์การบีบอัด: วิธีการที่มีอยู่ส่วนใหญ่เพิ่มประสิทธิภาพเฉพาะ “ความสำคัญ” ของ KV เท่านั้น แต่กลับมองข้าม “ความซ้ำซ้อนเชิงความหมาย” ที่แข็งแกร่งตามธรรมชาติที่มีอยู่ใน KV แบบหลายรูปแบบ เมื่อ KV ที่คล้ายกันสูงจำนวนหนึ่งถูกเก็บรักษาไว้ซ้ำๆ พวกมันจะไม่เพิ่มปริมาณข้อมูลเชิงเส้น แต่จะแย่งงบประมาณแคชที่จำกัด ลดความกว้างของการครอบคลุมความหมาย และทำให้โมเดลจมลึกอยู่ในข้อมูลซ้ำซ้อนที่แคบลงเรื่อยๆ ความเสถียรจึงยากที่จะรับประกัน

เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอวิธีการ MixKV วิธีนี้พิจารณาร่วมกันระหว่าง “ความสำคัญ” และ “ความหลากหลาย” และปรับผสมน้ำหนักทั้งสองในมิติของเฮดความสนใจอย่างเหมาะสม จึงสร้างสมดุลระหว่างคุณภาพและประสิทธิภาพของการบีบอัดบริบท โดยไม่ต้องเลือกระหว่างสองสิ่งอีกต่อไป เอกสารงานวิจัยที่เกี่ยวข้องได้รับการตีพิมพ์ใน ICLR 2026 แล้ว

การค้นพบหลัก: ความแตกต่างของความซ้ำซ้อนแบบเฮเทอโรจีนีในเฮดของแคช KV

ทีมวิจัยเริ่มต้นด้วยการวิเคราะห์เชิงภาพจาก คุณลักษณะทางสถิติของ KV พวกเขาใช้การแสดงคีย์/ค่าของโทเค็นต่างๆ ภายในเลเยอร์เดียวกันและเฮดความสนใจเดียวกัน และคำนวณ โคไซน์ซิมิลาริตี เป็นคู่ๆ ด้านหนึ่งสังเกต “โทเค็นใดคล้ายกันมากกว่า” ผ่านเมทริกซ์ความคล้ายคลึง อีกด้านหนึ่งประเมิน “ระดับความซ้ำซ้อนโดยรวม” ผ่านเส้นโค้งการกระจาย จึงได้การค้นพบที่สำคัญสองประการ:

การค้นพบที่หนึ่ง: ดังแสดงในรูปที่ 1 การกระจายโคไซน์ซิมิลาริตีของ KV ภายใต้อินพุตภาษาภาพโดยรวมมีการเลื่อนไปทางขวาอย่างชัดเจน (โน้มเอียงไปยังช่วงความคล้ายคลึงสูง) ซึ่งหมายความว่าในอินพุตหลายรูปแบบ แคช KV มี เนื้อหาที่มีความหมายใกล้เคียงหรือซ้ำกันมากขึ้น นั่นคือมีความซ้ำซ้อนที่แข็งแกร่งกว่า กล่าวอีกนัยหนึ่ง แคช KV แบบหลายรูปแบบมี “พื้นที่บีบอัดได้” มากกว่า แต่ก็มีแนวโน้มที่จะตกอยู่ในสถานการณ์ “เก็บรักษา KV ที่ดูสำคัญแต่จริงๆ แล้วซ้ำซ้อนจำนวนมาก” ได้ง่ายกว่า

การค้นพบที่สอง: ดังแสดงในรูปที่ 2 ระดับความซ้ำซ้อนของเฮดความสนใจต่างๆ ภายในโมเดลเดียวกันมีความแตกต่างอย่างมาก: บางเฮดอยู่ในสถานะความคล้ายคลึงสูงอย่างต่อเนื่อง (ซ้ำซ้อนมากกว่า) ในขณะที่บางเฮดมีความคล้ายคลึงต่ำกว่าอย่างเห็นได้ชัด (กระจายตัวมากกว่า) นี่บ่งชี้ว่าความซ้ำซ้อนไม่ได้กระจายอย่างสม่ำเสมอ แต่มี “การแบ่งหน้าที่” ที่ชัดเจน – บางเฮดมีแนวโน้มที่จะจับรูปแบบเฉพาะที่และซ้ำซ้อน (ความซ้ำซ้อนสูง) ในขณะที่เฮดอื่นๆ รับผิดชอบในการเก็บข้อมูลระดับโลกและเบาบางกว่า (ความซ้ำซ้อนต่ำ)

ทีมวิจัยได้เปรียบเทียบรูปแบบความซ้ำซ้อนของเฮดระหว่างอินพุตแบบข้อความล้วนและแบบภาษาภาพ พบว่ารูปแบบโดยรวมมีความสอดคล้องสูง: เฮดที่มีความซ้ำซ้อนสูงในอินพุตข้อความล้วน มักจะยังคงมีความซ้ำซ้อนสูงในอินพุตภาษาภาพด้วย

ในที่สุด เอกสารงานวิจัยได้สรุปปรากฏการณ์นี้ว่าเป็น “ความแตกต่างของความซ้ำซ้อนแบบเฮเทอโรจีนีในระดับเฮดของแคช KV”: ความซ้ำซ้อนมีโครงสร้างเฮเทอโรจีนีที่เสถียรในระดับเฮด สิ่งนี้อธิบายโดยตรงว่าทำไมกลยุทธ์การบีบอัดที่ “ใช้เกณฑ์เดียวกับทุกเฮดและคัดเลือกเฉพาะตามความสำคัญ” จึงมักนำไปสู่ความไม่เสถียร: การเก็บรักษาข้อมูลที่คล้ายคลึงกันซ้ำๆ ในเฮดที่มีความซ้ำซ้อนสูง จะใช้งบประมาณแคชหมด ทำให้การครอบคลุมความหมายอ่อนแอลง และนำไปสู่ความผันผวนของคุณภาพผลลัพธ์หรือแม้แต่ข้อผิดพลาด

โซลูชัน MixKV: การให้คะแนนสองขั้นตอนและการผสมผสานแบบปรับได้ คำนึงทั้งความสำคัญและความหลากหลาย

จากข้อค้นพบดังกล่าว เป้าหมายของ MixKV ชัดเจน: โดยไม่เปลี่ยนกระบวนการหลักของการเลือก Top-K เดิม ให้อัปเกรด “ตัวให้คะแนน” เพื่อให้ KV ที่ถูกเก็บรักษาไว้มีทั้ง “ความสำคัญ” และ “ความหลากหลาย” พร้อมกัน จึงลดการทรุดตัวของการครอบคลุมความหมายที่เกิดจาก “สำคัญแต่ซ้ำซ้อน”

แก่นกลางของ MixKV สามารถสรุปได้เป็น “การให้คะแนนสองขั้นตอนและการผสมผสานแบบปรับได้หนึ่งครั้ง”:

การให้คะแนนความสำคัญ: ผสานสัญญาณความสนใจภายในหน้าต่าง (ความสำคัญภายนอก) กับสัญญาณความเข้มของ KV เอง (ความสำคัญภายใน โดยค่าเริ่มต้นใช้ VNorm)
การให้คะแนนความหลากหลาย: ส่งเสริมให้เลือก KV ที่ “ไม่คล้ายกัน” หลีกเลี่ยงการเลือกเพื่อนบ้านเชิงความหมายที่ซ้ำซ้อนในเฮดที่มีความซ้ำซ้อนสูง เพื่อขยายการครอบคลุมความหมาย
การผสมผสานแบบปรับได้ตามเฮด: ประมาณระดับความซ้ำซ้อนของแต่ละเฮดแบบออนไลน์; ยิ่งความซ้ำซ้อนสูง ยิ่งเน้นความหลากหลาย; ยิ่งความซ้ำซ้อนต่ำ ยิ่งเน้นความสำคัญ บรรลุการเพิ่มประสิทธิภาพร่วมกันในระดับละเอียด

เมื่อบีบอัดตามความสำคัญเพียงอย่างเดียว ความเสี่ยงทั่วไปคือ: KV ที่ถูกเก็บรักษาไว้ “รวมกลุ่มกัน” ในพื้นที่ที่คล้ายคลึงกันเพียงไม่กี่แห่งในพื้นที่การแทนค่า – ดูเหมือนเก็บรักษาจุดสำคัญไว้ แต่จริงๆ แล้วการครอบคลุมแคบลง MixKV ได้นำการให้คะแนนความหลากหลายเข้ามาและผสมผสานในระดับเฮด การกระจายตัวของ KV ที่ถูกเก็บรักษาไว้จึงใกล้เคียงกับการกระจายตัวโดยรวมของแคช KV ที่สมบูรณ์มากขึ้น สามารถครอบคลุมพื้นที่ข้อมูลเดิมที่อาจถูกมองข้ามได้มากขึ้น ดังนั้นภายใต้งบประมาณที่จำกัดกว่าจึงสามารถบรรลุการบีบอัดที่เสถียรกว่า

ผลการทดลอง: การปรับปรุงประสิทธิภาพที่สอดคล้องกันข้ามงานและข้ามโมเดล

ประสิทธิภาพการทำความเข้าใจหลายรูปแบบ

ดังแสดงในตารางที่ 1 MixKV นำไปสู่การปรับปรุงประสิทธิภาพที่สอดคล้องกันในการทดสอบมาตรฐานการทำความเข้าใจภาพหลายชุดและภายใต้การตั้งค่าต่างๆ

ประสิทธิภาพการทำความเข้าใจข้อความยาว

ดังแสดงในตารางที่ 2 ในงานบริบทยาวแบบข้อความล้วน MixKV ก็ยังนำมาซึ่งการเพิ่มประสิทธิภาพที่สอดคล้องกัน ซึ่งบ่งชี้ว่าวิธีนี้ไม่เพียงใช้ได้กับ VLM เท่านั้น แต่ยังมีประสิทธิภาพกับการอนุมานข้อความยาวของ LLM เช่นกัน

ความสามารถในการขยายขนาดบน VLM ขนาดใหญ่

ดังแสดงในตารางที่ 3 บนโมเดล InternVL3-38B ที่มีขนาดใหญ่ขึ้น MixKV ยังคงสามารถนำมาซึ่งการปรับปรุงประสิทธิภาพที่เสถียร แสดงให้เห็นถึงความสามารถในการขยายขนาดที่ดี

ความเป็นสากลบน VLM สถาปัตยกรรม MoE

ดังแสดงในตารางที่ 4 บนโมเดล Qwen3-VL-30B-A3B-Instruct สถาปัตยกรรม MoE MixKV ยังคงมีประสิทธิภาพ ยืนยันความเป็นสากลของวิธีการเพิ่มเติม

ประสิทธิภาพงานระบุตำแหน่ง GUI

ดังแสดงในตารางที่ 5 บรรลุการปรับปรุงประสิทธิภาพในหลายซับสเอนของงานระบุตำแหน่ง GUI (ScreenSpot-v2); ภายใต้งบประมาณแคชสองระดับ การปรับปรุงโดยเฉลี่ยอยู่ที่ 7.9 และ 8.0 ตามลำดับ

การวิเคราะห์ประสิทธิภาพ: ความล่าช้าและหน่วยความจำภายใต้บริบทยาว

ดังแสดงในรูปที่ 11 ภายใต้เงื่อนไขการบีบอัดสูงสุด (งบประมาณบริบทคือ 64) MixKV สามารถลดความล่าช้าในการอนุมานของโมเดลและการใช้หน่วยความจำสูงสุดได้อย่างมีนัยสำคัญ

สรุป

MixKV นำมาซึ่งการอัปเกรดที่สำคัญ “ทั้งเร็วและเสถียร” สำหรับการบีบอัดแคช KV ในการอนุมานบริบทยาว เริ่มต้นจากปรากฏการณ์ เปิดเผยอย่างเป็นระบบว่าแคช KV มีความซ้ำซ้อนเชิงความหมายแบบเฮเทอโรจีนีที่เสถียรในระดับเฮด: ระดับความซ้ำซ้อนของเฮดต่างๆ แตกต่างกันอย่างมีนัยสำคัญ และแสดงรูปแบบโครงสร้างที่สอดคล้องสูงทั้งในอินพุตข้อความล้วนและภาษาภาพ

จากความเข้าใจนี้ MixKV ใช้การเพิ่มประสิทธิภาพร่วมกันของ “ความสำคัญ” และ “ความหลากหลาย” เป็นเกณฑ์หลัก และผ่านการผสมผสานแบบปรับได้ในระดับเฮด โดยไม่เปลี่ยนกระบวนการบีบอัดเดิม ทำให้ KV ที่ถูกเก็บรักษาไว้สามารถจับข้อมูลสำคัญได้ ในขณะเดียวกันก็หลีกเลี่ยงการซ้อนทับซ้ำซ้อน จึงเพิ่มระดับการครอบคลุมข้อมูลและความเสถียรหลังการบีบอัดได้อย่างมีนัยสำคัญ

การทดลองแสดงให้เห็นว่า MixKV ไม่เพียงนำมาซึ่งผลประโยชน์ที่สอดคล้องกันในงานต่างๆ เช่น การทำความเข้าใจหลายรูปแบบ การระบุตำแหน่ง GUI การทำความเข้าใจข้อความยาว แต่ยังสามารถปรับปรุงประสิทธิภาพได้อย่างน่าพอใจ (เช่น การเร่งความเร็วการอนุมานและการลดการใช้หน่วยความจำ) การวิจัยนี้ชี้ให้เห็นเพิ่มเติมว่า: สำหรับการปรับใช้บริบทยาว การบีบอัด KV ไม่ควรเพียง “เลือกสิ่งที่สำคัญ” แต่ต้อง “รับประกันการครอบคลุม” – การนำโครงสร้างความซ้ำซ้อนเข้ามาอยู่ในกรอบการออกแบบ เป็นขั้นตอนสำคัญในการผลักดัน VLM/LLM ไปสู่การใช้งานได้จริงและการนำไปใช้ในระดับขนาดใหญ่

เอกสารงานวิจัยและโค้ด
ลิงก์เอกสาร: https://arxiv.org/pdf/2510.20707
ที่เก็บโค้ด: https://github.com/xuyang-liu16/MixKV
หน้าโครงการ: https://xuyang-liu16.github.io/MixKV/

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง