MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

长上下文推理已成为视觉-语言模型(VLM)和大语言模型(LLM)的默认形态。然而,真正的性能瓶颈往往潜藏在推理端的键值(KV)缓存中。随着上下文长度增加,KV缓存线性膨胀,导致显存占用与带宽开销飙升,进而严重压制模型吞吐量。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

因此,KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存,却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab的研究团队指出,其根源在于压缩准则的根本性缺陷:现有方法大多仅优化KV的“重要性”,却忽视了多模态KV中天然存在的更强“语义冗余”。当一批高度相似的KV被反复保留时,它们并不会线性增加信息量,反而会挤占有限的缓存预算、压缩语义覆盖的广度,导致模型在冗余信息中越陷越窄,稳定性自然难以保障。

为解决这一问题,研究团队提出了MixKV方法。该方法将“重要性”与“多样性”联合考量,并在注意力头维度自适应地混合两者权重,从而在上下文压缩的质量与效率之间实现平衡,无需再做取舍。相关论文已被ICLR 2026接收。

核心发现:KV缓存存在异构头部冗余性差异

研究团队首先从KV的统计特性入手进行可视化分析。他们在同一层、同一注意力头内,取不同token的key/value表示,并两两计算余弦相似度。一方面通过相似度矩阵直观观察“哪些token更相似”,另一方面通过分布曲线评估“整体冗余水平”。由此得到两个关键发现:

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

发现一: 如图1所示,视觉-语言输入下的KV相似度分布整体明显右移(偏向高相似度区间)。这意味着在多模态输入中,KV缓存内语义相近或重复的内容更多,即冗余性更强。换言之,多模态KV缓存的“可压缩空间”更大,但也更容易陷入“保留了大量看似重要、实则重复的KV”的困境。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

发现二: 如图2所示,同一模型内部不同注意力头的冗余水平差异巨大:有的头长期处于高相似度状态(更冗余),有的头相似度则显著更低(更分散)。这表明冗余并非均匀分布,而是存在明显的“分工”——有些头偏向捕捉局部、重复的模式(冗余高),而另一些头则负责承载更全局、更稀疏的信息(冗余低)。

团队进一步对比了纯文本与视觉-语言两类输入下的头部冗余模式,发现其整体形态高度一致:在纯文本输入中冗余度较高的头,在视觉-语言输入中往往也保持较高的冗余度。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

最终,论文将这一现象概括为KV缓存的“异构头部冗余性差异”:冗余具有稳定的、头部级别的异构结构。这直接解释了为何“对所有头采用一刀切、仅按重要性筛选”的压缩策略容易导致不稳定:在高冗余的头中重复保留相似信息,会耗尽缓存预算,削弱语义覆盖面,从而引发输出质量波动甚至错误。

解决方案MixKV:两步打分与自适应混合,兼顾重要性与多样性

基于上述发现,MixKV的目标明确:在不改变原有Top-K选取主流程的前提下,升级“打分器”,使保留的KV同时具备“重要性”和“多样性”,从而减少因“重要但重复”导致的语义覆盖面塌陷。

MixKV的核心可概括为“两步打分与一个自适应混合”:

  1. 重要性打分:融合窗口内的注意力信号(外在重要性)与KV本身的强度信号(内在重要性,默认采用VNorm)。
  2. 多样性打分:鼓励选取彼此“不相似”的KV,避免在高冗余头中重复选择语义近邻,以扩大语义覆盖。
  3. 头部自适应混合:在线估计每个头的冗余度;冗余度越高,则越强调多样性;冗余度越低,则越强调重要性,实现细粒度的联合优化。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

仅按重要性压缩时,一个常见风险是:保留的KV在表示空间中“扎堆”于少数相似区域——看似保留了关键点,实则覆盖面变窄。MixKV引入多样性打分并进行头部级混合后,保留的KV分布更接近完整KV缓存的整体分布,能够覆盖到更多原本可能被遗漏的信息区域,从而在更紧的预算下实现更稳定的压缩。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

实验结果:跨任务、跨模型的一致性能提升

多模态理解性能

如表1所示,MixKV在多个图像理解基准测试及多种设置下均带来一致的性能提升。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

长文本理解性能

如表2所示,在纯文本长上下文任务上,MixKV同样带来一致增益,表明该方法不仅适用于VLM,对LLM的长文本推理同样有效。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

大规模VLM上的可扩展性

如表3所示,在更大规模的InternVL3-38B模型上,MixKV仍能带来稳定的性能提升,展现了良好的可扩展性。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

MoE架构VLM上的通用性

如表4所示,在MoE架构的Qwen3-VL-30B-A3B-Instruct模型上,MixKV同样有效,进一步验证了其方法的通用性。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

GUI定位任务性能

如表5所示,在GUI定位(ScreenSpot-v2)的多个子场景上均实现了性能提升;在两档缓存预算下,平均提升分别达到7.98.0

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

效率分析:长上下文下的延迟与显存

如图11所示,在极致压缩条件下(上下文预算为64),MixKV能显著降低模型推理延迟与峰值显存占用。

MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

结论

MixKV为长上下文推理中的KV缓存压缩带来了“既快又稳”的关键升级。它从现象出发,系统地揭示了KV缓存存在稳定的、头部级别的异构语义冗余:不同头的冗余程度差异显著,且在纯文本与视觉-语言输入上呈现高度一致的结构性模式。

基于这一洞察,MixKV以“重要性”与“多样性”联合优化为核心准则,并通过头部级别的自适应混合,在不改变原有压缩流程的前提下,使保留的KV既能抓住关键信息,又能避免重复堆叠,从而显著提升了压缩后的信息覆盖度与稳定性。

实验表明,MixKV不仅能在多模态理解、GUI定位、长文本理解等任务上带来一致收益,同时还能实现可观的效率改善(如推理加速与显存占用下降)。这项研究进一步说明:面向长上下文部署,KV压缩不能只“挑选重要的”,更要“保证覆盖的”——将冗余结构纳入设计范式,是推动VLM/LLM走向真正可用、可规模化落地的重要一步。

论文与代码
论文链接:https://arxiv.org/pdf/2510.20707
代码仓库:https://github.com/xuyang-liu16/MixKV
项目主页:https://xuyang-liu16.github.io/MixKV/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/27984

(0)
上一篇 2026年3月31日 上午10:55
下一篇 2026年3月31日 上午10:56

相关推荐

  • 颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

    造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …

    2026年2月21日
    55600
  • LLM推理优化全景图:从基础设施到模型算法的全栈工程实践

    本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

    2025年10月2日
    99612
  • AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

    大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。 为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…

    2026年3月13日
    30000
  • OmniInfer:统一多后端引擎,破解端侧大模型推理碎片化难题

    随着大语言模型(LLM)和视觉语言模型(VLM)在参数量和架构上快速演进,AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。 端侧推理能够显著降低对云端服务器的算力依赖与带宽压力,并在保护用户数据隐私的前提下,提供离线可用、低延迟的交互体验。然而,要将LLM/VLM真正部署到“每一台设备上”,开发者面临着前所未有的工程挑战。 核心问题与痛点 硬件生…

    2026年4月15日
    21900
  • 清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

    清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍 现在,生成一个视频可能比你刷视频还要快。 一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。 以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9…

    2025年12月25日
    29300