阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损

关键词:VLCache视觉语言模型(VLM)、KV缓存复用动态重计算推理加速、精度保留

你有没有遇到过这样的场景:用 AI 工具连续询问同一张图片的不同问题时,每次都要等待好几秒才能得到回复?明明图片没有变,模型却要重复处理整幅图像,造成大量冗余计算。

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损

  • VLCACHE: Computing 2% Vision Tokens and Reusing 98% for Vision–Language Inference
  • https://arxiv.org/pdf/2512.12977

阿里团队最新提出的 VLCache 框架,旨在解决这一痛点。它通过精准的缓存复用策略和动态重计算机制,在重计算 2%-5%视觉 token 的前提下,实现了 1.2x-16x 的首 token 生成时间(TTFT)加速,同时保持与全量计算几乎一致的推理精度。

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
图1:VLCache整体架构。该图展示 VLCache 的缓存存储与复用流程。缓存命中时,直接复用编码器输出和各层 KV 缓存,并在 KV 缓存中进行选择性重计算。未命中则正常计算并存储两种缓存,命中则复用;选择性重算早期 token,平衡效率与精度,是其核心设计体现。

这一突破性工作,为视觉语言模型(VLM)的高效部署提供了全新思路。本文将拆解 VLCache 的核心创新、技术细节和实验成果,探讨这一框架如何在速度与精度之间找到平衡。

一、VLM 推理的核心痛点:重复计算拖慢速度

视觉语言模型(VLM)已成为图文理解、视觉问答等任务的核心范式。它通常由两部分组成:视觉编码器(如 ViT)将图片转换成模型可理解的视觉 token,大语言模型(LLM)基于这些 token 和文本提示进行推理。

为了加速 LLM 推理,业界普遍采用 KV 缓存技术——将之前计算的键(Key)值(Value)对缓存起来,后续请求可直接复用,避免重复计算。但在 VLM 场景中,这一技术面临两大挑战:

  1. 前缀匹配限制:传统 KV 缓存要求新请求的前缀与缓存完全一致才能复用,而多模态场景中,同一图片搭配不同文本提示的情况极为常见,导致缓存命中率极低。
  2. 视觉 token 重要性难界定:现有位置无关缓存复用方法(如 CacheBlend、KVShare、MPIC)要么基于局部信息判断 token 重要性,要么依赖特定效应(如注意力 sink),均无法准确适配视觉 token 的特性,导致复用后精度大幅下降。

举个例子,CacheBlend 通过 KV 缓存距离判断 token 重要性,但实验证明,距离最远的 token 往往不是影响精度的关键;MPIC 将重计算预算分配给缓存块的早期 token,但其依赖的注意力 sink 效应在视觉 token 中并不适用——因为视觉 token 不像系统提示那样会吸引高注意力。

这些问题导致 VLM 在处理重复图像时,仍需重复计算大量视觉 token,推理速度大打折扣。而 VLCache 的出现,正是为了解决这些核心痛点。

二、相关工作:现有缓存复用方法的局限

为了更清晰地理解 VLCache 的创新价值,我们先梳理当前主流的位置无关 KV 缓存复用方法,看看它们各自的不足:

| 方法 | 核心思路 | 关键局限 |
| :— | :— | :— |
| CacheBlend | 通过计算前几个注意力头的 KV 缓存距离来判断 token 重要性 | 依赖局部层信息,无法准确判断视觉 token 重要性 |
| KVShare | 基于注意力图偏差,在预填充和解码阶段选择性重计算关键 token | 缺乏对解码阶段影响的深度分析,未考虑层间差异 |
| MPIC | 为重用上的每个缓存块分配重计算预算,重计算早期 token | 依赖注意力 sink 效应,视觉 token 中不适用 |

上表基于原论文相关工作分析整理,可以看出这些方法的共同问题是:缺乏对 VLM 缓存复用误差的本质理解,也没有系统考虑模型各层对精度的不同影响,导致要么速度提升有限,要么精度损失严重。而 VLCache 通过两大核心洞察,从根源上解决了这些问题。

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
表 5:Qwen3-VL-8B 模型与现有最优方法的性能对比。对比 VLCache(Ours)与 CacheBlend(Cache,基于 KV 缓存距离)、KVShare(Attn.,基于注意力图);r 为统一重算率,数值为各数据集精度。相同重算率下 VLCache 均值均超两基线(如 r=0.1 时 74.42 vs 74.28 vs 73.64),验证累积复用误差效应理论有效性,动态策略未启用仍显优势。

三、核心洞察:解锁高效缓存复用的两大关键发现

VLCache 的成功,源于对 VLM 缓存复用误差的深入研究,团队提出了两个颠覆性的核心洞察,为后续算法设计奠定了理论基础。

3.1 洞察一:累积复用误差效应——早期 token 误差会“滚雪球”

在因果语言模型中,每个 token 的输出依赖于自身和所有前置 token。当复用缓存的视觉 token 时,由于新请求的上下文与原请求存在差异(即前缀不匹配),会产生两类误差:

  • 自身复用误差:当前 token 复用缓存导致的直接误差。
  • 传播误差:前置复用 token 的误差传递到当前 token 的累积误差。

第 k 个 token 的总误差可表示为:

这意味着,早期 token 的复用误差会像滚雪球一样,不断传递并累积到后续 token,最终导致推理精度严重下降。实验证明,选择性重计算早期 token,能有效抵消上游误差,抑制误差累积,如图 2 所示。

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
图 2:早期 token 重计算对误差累积的影响。在两种图像输入下,展示了不同重计算比例对后续 token 误差范数的影响。可见,重计算 10% 或 30% 的早期 token,能显著降低后续 token 的误差。

3.2 洞察二:层间重要性差异——不同层对精度的影响天差地别

VLM 的 Transformer 层对最终输出的贡献并不均衡
* 部分层对缓存复用的误差更敏感,需要更高的重计算比例。
* 而有些层即使完全复用缓存,也不会明显影响精度。

为验证这一发现,团队在 Qwen2.5-VL-7B 模型上进行了实验:保持图像不变,替换文本提示生成“不匹配”的 KV 缓存,然后在单个层中重计算不同比例的视觉 token,测量生成文本的 MSE 损失(与使用正确 KV 缓存的原模型对比)。

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
图 3:不同层重计算比例的 MSE 损失对比。在 MMMU-Pro Standard(左)和 MMMU-Pro Vision(右)数据集上,重计算前 10%、20% 和 30% 图像 token 时,生成文本 logits 与原始模型(含正确 KV 缓存)logits 的均方误差(MSE)损失。结果表明,统一的重计算比例是次优的,敏感层需要更高的重算率。

实验结果清晰表明:使用统一的重计算比例(如现有方法)是次优的,必须根据层的敏感度动态分配重计算预算

四、VLCache 核心设计:复用与重计算的完美平衡

基于上述两大洞察,VLCache 设计了一套端到端的视觉 token KV 缓存复用流程,其核心包括基础缓存机制和动态重计算策略两部分。

4.1 基础架构:哈希匹配+双层缓存复用

VLCache 的核心思路是:
* 对已处理过的图像,存储其视觉编码器输出和对应的 KV 缓存。
* 当再次遇到相同图像时,直接复用这些缓存,仅选择性重计算少量关键 token。

其整体流程如图 1 所示:

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
图 1:VLCache 整体架构。该图展示了 VLCache 的缓存存储与复用流程。缓存命中时,直接复用编码器输出和各层 KV 缓存,并在 KV 缓存中进行选择性重计算。缓存未命中则正常计算并存储两种缓存。

具体步骤如下:
1. 图像哈希匹配:收到多模态请求时,计算输入图像的全局哈希。若哈希已存在(缓存命中),直接读取存储的编码器缓存和 KV 缓存;若不存在(缓存未命中),执行完整计算并存储缓存。
2. 缓存内容:存储两部分关键数据——视觉编码器(ViT)对每个图像块的输出,以及 LLM 各层对应的 KV 缓存。
3. 计算跳过机制:对于复用的 token,跳过其对应的注意力计算和 MLP 计算,仅对选中的少量 token 执行完整计算。如图 4 所示,跳过部分计算后形成连续的计算区域,更适配硬件执行,进一步提升速度。

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
图 4:全注意力计算对比 VLCache 部分注意力计算。左图为传统全注意力计算,需处理所有 token;右图为 VLCache 部分计算,跳过复用 token 的计算,将查询与重算 token 拼接为输入,形成连续计算区域以提升硬件执行效率。

4.2 核心创新:动态层感知重计算策略

VLCache 的最大亮点,是基于层间重要性差异和累积误差效应,设计的动态重计算分配算法。该算法能在固定的总重计算预算下,最大化精度保留。

4.2.1 步骤 1:层敏感度评分

首先构造用于调优的小规模辅助数据集 D,对每个层 i,计算不同重计算比例 r 下的敏感度评分:
* S_i(r) 为层 i 在重计算比例 r 下的敏感度评分。
* y_orig 为使用正确 KV 缓存的原模型输出。
* y_i(r) 为复用不匹配 KV 缓存、仅在层 i 重计算 r 比例 token 的输出。

敏感度评分越高,说明该层对缓存复用误差越敏感,需要分配更高的重计算比例。

4.2.2 步骤 2:带约束的优化分配

在总重计算预算 R_total 约束下,最小化所有层的敏感度评分之和,同时满足两个关键约束:
1. 层重计算比例单调非递增r_i >= r_{i+1}。这是因为 VLCache 复用上层保留 token 的隐藏状态并跳过后续计算,若深层重计算比例高于浅层,会导致需要重算的 token 在浅层未被保留,无法复用隐藏状态,从而违背加速目标。
2. 重计算比例离散取值r_i ∈ {0, 0.1, 0.2, ..., 1.0},适配实际部署需求。

优化目标可表示为:
min_{r_1,...,r_L} Σ_{i=1}^{L} S_i(r_i)
s.t. Σ_{i=1}^{L} r_i <= R_total, r_i >= r_{i+1}, r_i ∈ {0, 0.1, ..., 1.0}

4.2.3 步骤 3:贪心算法求解

由于优化问题属于整数规划,穷举搜索计算量过大,团队设计了贪心算法近似求解:
1. 初始化所有层的重计算比例为 0。
2. 每次选择“单位重计算比例提升带来敏感度评分下降最多”的层,增加其重计算比例(按离散步长)。
3. 重复步骤 2,直到总重计算比例达到 R_total

该算法虽不保证全局最优,但能在极短时间内找到近似最优解,且实验证明其性能在多种模型和任务上表现优异。

4.3 SGLang 集成:工程化落地关键

为实现高效部署,VLCache 被集成到 SGLang 框架中,主要做了两处关键修改:
1. ViT 计算跳过:通过图像内容哈希实现请求级嵌入复用,命中缓存时完全跳过 ViT 编码器计算。
2. 细粒度 KV 缓存复用:为每张图像分配独立哈希,支持跨上下文的视觉内容复用;在注意力层使用块稀疏注意力,通过二进制掩码区分需要重计算的 token 和复用的 token。

集成后,VLCache 能透明地加速 VLM 推理,无需修改模型结构,完美适配长上下文多模态任务部署。

五、实验验证:16 倍加速+近无损精度的双重突破

团队在 Qwen2.5-VL、Qwen3-VL 系列模型(7B/32B/30B-A3B)上进行了全面实验,验证了 VLCache 在速度和精度上的双重优势。实验使用 NVIDIA H20-3e GPU,覆盖视觉问答、视觉数学、OCR、幻觉检测等 12 个主流数据集。

5.1 速度提升:最高 16 倍 TTFT 加速

TTFT(Time-To-First-Token)是衡量推理响应速度的关键指标,VLCache 在不同模型和图像 token 长度下均实现了显著加速。

Qwen3-VL-8B 模型的 TTFT 及加速比

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
表 1:Qwen3-VL-8B 模型的 TTFT 及加速比。r 表示静态重计算比例,r_avg 表示动态重计算的平均比例。可见静态无重计算(r=0.0)时加速比最高达 1.98x,动态重计算(r_avg=0.02)仍保持 1.51x-1.86x 加速。

Qwen3-VL-32B 模型的 TTFT 及加速比

表 2 展示了 Qwen3-VL-32B 模型在不同图像 Token 长度(1K-20K)下的首 Token 生成时间(TTFT)及加速比。配置与表 1 相同。结果显示,32B 模型的加速效果更为显著:静态无重计算策略(r=0.0)在 20K 图像 Token 时加速比达到 3.94倍;动态重计算策略(平均 r=0.025)仍能保持 3.18倍 的加速。根据论文分析,加速主要得益于 KV 缓存的复用,而 Vision Transformer 的高效架构使得这种复用收益随着图像 Token 数量的增加而愈发明显。

5.2 精度保留:99%近无损精度,动态策略更优

VLCache 的核心优势不仅是速度,更在于其近无损的精度保留。实验表明,即使仅重计算 2%-5% 的视觉 Token,其精度与全量计算(r=1.0)几乎一致。

Qwen3-VL-8B 模型在各数据集的精度(准确率%)

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
表 3:Qwen3-VL-8B 模型的精度保持情况。r=1.0 为全量计算基线。可见动态重计算策略(平均 r=0.025)下,平均精度达 74.49%,与全量计算(74.48%)几乎一致,甚至在部分数据集(如 HallusionBench)上精度更高。

Qwen3-VL-32B 模型在各数据集的精度(准确率%)

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
表 4:Qwen3-VL-32B 模型的精度保持情况。在动态重计算策略(平均 r=0.025)下,Qwen3-VL-32B 的平均精度达 79.44%,略高于全量计算基线(79.33%),证明动态策略能精准分配重计算资源,实现精度与速度的双赢。

关键结论:VLCache 的动态重计算策略在平均重计算比例仅为 2.5% 左右 时,就能实现与全量计算相当的精度,部分数据集甚至更高。这是因为动态策略将重计算资源精准分配到对精度影响最大的层和 Token 上,避免了静态策略均匀分配带来的资源浪费。

5.3 与 SOTA 方法对比:全面领先

研究团队将 VLCache 与 CacheBlend(基于 KV 缓存距离)和 KVShare(基于注意力图)进行了对比。结果显示,在相同的重计算比例下,VLCache 的精度全面领先。

阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
表 5:Qwen3-VL-8B 模型与现有最优方法的性能对比。对比 VLCache(Ours)与 CacheBlend(基于 KV 缓存距离)、KVShare(基于注意力图);r 为统一的重算率,数值为各数据集精度。在相同重算率下,VLCache 的平均精度均超过两个基线(例如 r=0.1 时,74.42 vs 74.28 vs 73.64),验证了其累积复用误差效应理论的有效性,即使未启用动态策略也显示出优势。

5.4 小结:动态策略的优势与权衡

综合以上实验结果,VLCache 动态重计算策略展现出两大核心优势:

  1. 极低重计算比例下的近无损精度动态策略通过层间敏感度分析和累积误差效应,将有限的重计算资源精准分配到对输出质量影响最大的层和早期 Token 上。实验表明,在平均重计算比例仅为 2.5% 左右 时,其在多个数据集上的平均精度已与全量计算持平甚至略有超越,实现了真正的“近无损”精度保留。

  2. 更优的加速‑精度权衡:静态策略(如 r=0.0)虽然能取得最高的加速比(如在 Qwen2.5‑VL‑32B 模型上最高达 16.88 倍),但往往伴随着一定的精度下降。而动态策略通过引入极低的重计算比例(平均 2.5%‑3.5%),在保留绝大部分加速收益的同时,将精度损失降至几乎为零,甚至在某些数据集上反超全量计算基线。这种巧妙的权衡使得动态策略更适用于对精度要求严苛的生产环境。

此外,与现有 SOTA 方法(如 CacheBlend、KVShare)相比,VLCache 的动态策略在相同重计算比例下均取得了更高的精度,这进一步验证了其基于层间重要性差异和累积误差效应的设计优越性

六、总结与展望

VLCache 通过两大核心创新——累积复用误差效应的发现和动态层感知重计算策略,实现了视觉语言模型推理加速的突破性进展:

  • 效率飞跃:仅重计算 2%-5% 的视觉 Token,就能实现 1.2 倍至 16 倍的 TTFT 加速,图像 Token 越长,加速效果越显著。
  • 精度近无损:动态分配重计算资源,使精度与全量计算几乎一致,部分场景甚至更高。
  • 易于部署:集成到 SGLang 框架,支持哈希匹配、细粒度缓存复用,无需修改模型结构,适配实际部署需求。

这一工作的价值不仅在于技术突破,更在于为多模态模型的高效部署提供了全新范式。未来,VLCache 的发展方向主要有两个:

  1. 扩展到相似图像:当前仅支持完全相同图像的缓存复用,未来可探索相似图像的缓存迁移与适配,进一步提升缓存命中率。
  2. 多模态扩展:将缓存复用策略扩展到语音、视频等其他模态,解决更广泛场景的多模态推理效率问题。

对于开发者和企业而言,VLCache 的落地将大幅降低 VLM 的部署成本——在不损失精度的前提下,减少硬件资源消耗,提升用户响应速度,尤其适用于智能客服、图文检索、自动驾驶等对实时性要求高的场景。

随着大模型向多模态、长上下文方向发展,推理效率将成为核心竞争力。VLCache 的出现,无疑为这一领域的发展注入了强大动力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17386

(0)
上一篇 2026年1月8日 上午8:18
下一篇 2026年1月8日 下午12:16

相关推荐

  • 突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%

    我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…

    2025年12月21日
    21000
  • 英伟达200亿美元豪购Groq:黄仁勋的AI推理野心与LPU芯片的颠覆性革命

    这个圣诞节,英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易,涉及金额高达200亿美元(约合人民币1405亿元)。 根据Groq官方声明,交易的核心内容是英伟达获得了Groq推理技术的授权,同时,Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…

    2025年12月25日
    8000
  • 原生并行推理革命:NPR框架让AI智能体告别单线程思维,进化出多路径探索大脑

    近年来,大语言模型在文本生成的流畅度和长度上进步显著。然而,当面对真正复杂的推理任务——需要多路径探索、自我反思与交叉验证、以及在多条线索间进行综合与抉择时,传统的链式思维(Chain-of-Thought)方法便开始显得力不从心:它容易受早期判断误导、思维发散不足、自我纠错能力弱,并且其顺序生成的特性在效率上存在天然瓶颈。 北京通用人工智能研究院(BIGA…

    2025年12月27日
    8100
  • Android异构硬件AI推理优化:NPU+INT8量化实现298倍加速的深度解析

    关键词: Android、异构计算、模型量化、ResNet、YOLO、高通骁龙 当你使用手机的“拍照识物”功能时,是否遇到过画面卡顿?当直播应用的实时美颜效果延迟明显时,你是否好奇问题出在哪里?这些场景背后,都指向移动 AI 推理的核心挑战:如何在手机有限的硬件资源下,让AI模型(如图像分类、目标检测)既跑得快(低延迟),又算得准(高精度),同时还不费电(低…

    2026年1月3日
    12400
  • LLM推理优化全景图:从基础设施到模型算法的全栈工程实践

    本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

    2025年10月2日
    52912