MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

长上下文推理已成为视觉-语言模型（VLM）和大语言模型（LLM）的默认形态。然而，真正的性能瓶颈往往潜藏在推理端的键值（KV）缓存中。随着上下文长度增加，KV缓存线性膨胀，导致显存占用与带宽开销飙升，进而严重压制模型吞吐量。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

因此，KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存，却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab的研究团队指出，其根源在于压缩准则的根本性缺陷：现有方法大多仅优化KV的“重要性”，却忽视了多模态KV中天然存在的更强“语义冗余”。当一批高度相似的KV被反复保留时，它们并不会线性增加信息量，反而会挤占有限的缓存预算、压缩语义覆盖的广度，导致模型在冗余信息中越陷越窄，稳定性自然难以保障。

为解决这一问题，研究团队提出了MixKV方法。该方法将“重要性”与“多样性”联合考量，并在注意力头维度自适应地混合两者权重，从而在上下文压缩的质量与效率之间实现平衡，无需再做取舍。相关论文已被ICLR 2026接收。

核心发现：KV缓存存在异构头部冗余性差异

研究团队首先从KV的统计特性入手进行可视化分析。他们在同一层、同一注意力头内，取不同token的key/value表示，并两两计算余弦相似度。一方面通过相似度矩阵直观观察“哪些token更相似”，另一方面通过分布曲线评估“整体冗余水平”。由此得到两个关键发现：

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

发现一： 如图1所示，视觉-语言输入下的KV相似度分布整体明显右移（偏向高相似度区间）。这意味着在多模态输入中，KV缓存内语义相近或重复的内容更多，即冗余性更强。换言之，多模态KV缓存的“可压缩空间”更大，但也更容易陷入“保留了大量看似重要、实则重复的KV”的困境。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

发现二： 如图2所示，同一模型内部不同注意力头的冗余水平差异巨大：有的头长期处于高相似度状态（更冗余），有的头相似度则显著更低（更分散）。这表明冗余并非均匀分布，而是存在明显的“分工”——有些头偏向捕捉局部、重复的模式（冗余高），而另一些头则负责承载更全局、更稀疏的信息（冗余低）。

团队进一步对比了纯文本与视觉-语言两类输入下的头部冗余模式，发现其整体形态高度一致：在纯文本输入中冗余度较高的头，在视觉-语言输入中往往也保持较高的冗余度。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

最终，论文将这一现象概括为KV缓存的“异构头部冗余性差异”：冗余具有稳定的、头部级别的异构结构。这直接解释了为何“对所有头采用一刀切、仅按重要性筛选”的压缩策略容易导致不稳定：在高冗余的头中重复保留相似信息，会耗尽缓存预算，削弱语义覆盖面，从而引发输出质量波动甚至错误。

解决方案MixKV：两步打分与自适应混合，兼顾重要性与多样性

基于上述发现，MixKV的目标明确：在不改变原有Top-K选取主流程的前提下，升级“打分器”，使保留的KV同时具备“重要性”和“多样性”，从而减少因“重要但重复”导致的语义覆盖面塌陷。

MixKV的核心可概括为“两步打分与一个自适应混合”：

重要性打分：融合窗口内的注意力信号（外在重要性）与KV本身的强度信号（内在重要性，默认采用VNorm）。
多样性打分：鼓励选取彼此“不相似”的KV，避免在高冗余头中重复选择语义近邻，以扩大语义覆盖。
头部自适应混合：在线估计每个头的冗余度；冗余度越高，则越强调多样性；冗余度越低，则越强调重要性，实现细粒度的联合优化。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

仅按重要性压缩时，一个常见风险是：保留的KV在表示空间中“扎堆”于少数相似区域——看似保留了关键点，实则覆盖面变窄。MixKV引入多样性打分并进行头部级混合后，保留的KV分布更接近完整KV缓存的整体分布，能够覆盖到更多原本可能被遗漏的信息区域，从而在更紧的预算下实现更稳定的压缩。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

实验结果：跨任务、跨模型的一致性能提升

多模态理解性能

如表1所示，MixKV在多个图像理解基准测试及多种设置下均带来一致的性能提升。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

长文本理解性能

如表2所示，在纯文本长上下文任务上，MixKV同样带来一致增益，表明该方法不仅适用于VLM，对LLM的长文本推理同样有效。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

大规模VLM上的可扩展性

如表3所示，在更大规模的InternVL3-38B模型上，MixKV仍能带来稳定的性能提升，展现了良好的可扩展性。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

MoE架构VLM上的通用性

如表4所示，在MoE架构的Qwen3-VL-30B-A3B-Instruct模型上，MixKV同样有效，进一步验证了其方法的通用性。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

GUI定位任务性能

如表5所示，在GUI定位（ScreenSpot-v2）的多个子场景上均实现了性能提升；在两档缓存预算下，平均提升分别达到7.9和8.0。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

效率分析：长上下文下的延迟与显存

如图11所示，在极致压缩条件下（上下文预算为64），MixKV能显著降低模型推理延迟与峰值显存占用。

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

结论

MixKV为长上下文推理中的KV缓存压缩带来了“既快又稳”的关键升级。它从现象出发，系统地揭示了KV缓存存在稳定的、头部级别的异构语义冗余：不同头的冗余程度差异显著，且在纯文本与视觉-语言输入上呈现高度一致的结构性模式。

基于这一洞察，MixKV以“重要性”与“多样性”联合优化为核心准则，并通过头部级别的自适应混合，在不改变原有压缩流程的前提下，使保留的KV既能抓住关键信息，又能避免重复堆叠，从而显著提升了压缩后的信息覆盖度与稳定性。

实验表明，MixKV不仅能在多模态理解、GUI定位、长文本理解等任务上带来一致收益，同时还能实现可观的效率改善（如推理加速与显存占用下降）。这项研究进一步说明：面向长上下文部署，KV压缩不能只“挑选重要的”，更要“保证覆盖的”——将冗余结构纳入设计范式，是推动VLM/LLM走向真正可用、可规模化落地的重要一步。

论文与代码
论文链接：https://arxiv.org/pdf/2510.20707
代码仓库：https://github.com/xuyang-liu16/MixKV
项目主页：https://xuyang-liu16.github.io/MixKV/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/27984

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

核心发现：KV缓存存在异构头部冗余性差异

解决方案MixKV：两步打分与自适应混合，兼顾重要性与多样性

实验结果：跨任务、跨模型的一致性能提升

多模态理解性能

长文本理解性能

大规模VLM上的可扩展性

MoE架构VLM上的通用性

GUI定位任务性能

效率分析：长上下文下的延迟与显存

结论

相关推荐

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍

北大清华联手DeepSeek突破Agentic LLM推理瓶颈！DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

SkipOPU：突破动态推理瓶颈，FPGA加速大语言模型效率革命

微信AI突破扩散模型推理瓶颈：WeDLM实现vLLM部署3倍加速，低熵场景超10倍

Android异构硬件AI推理优化：NPU+INT8量化实现298倍加速的深度解析