阿里VLCache革新视觉语言模型推理：仅计算2%视觉token实现16倍加速，精度近无损

关键词：VLCache、视觉语言模型（VLM）、KV缓存复用、动态重计算、推理加速、精度保留

你有没有遇到过这样的场景：用 AI 工具连续询问同一张图片的不同问题时，每次都要等待好几秒才能得到回复？明明图片没有变，模型却要重复处理整幅图像，造成大量冗余计算。

VLCACHE: Computing 2% Vision Tokens and Reusing 98% for Vision–Language Inference
https://arxiv.org/pdf/2512.12977

阿里团队最新提出的 VLCache 框架，旨在解决这一痛点。它通过精准的缓存复用策略和动态重计算机制，在仅重计算 2%-5%视觉 token 的前提下，实现了 1.2x-16x 的首 token 生成时间（TTFT）加速，同时保持与全量计算几乎一致的推理精度。

图1：VLCache整体架构。该图展示 VLCache 的缓存存储与复用流程。缓存命中时，直接复用编码器输出和各层 KV 缓存，并在 KV 缓存中进行选择性重计算。未命中则正常计算并存储两种缓存，命中则复用；选择性重算早期 token，平衡效率与精度，是其核心设计体现。

这一突破性工作，为视觉语言模型（VLM）的高效部署提供了全新思路。本文将拆解 VLCache 的核心创新、技术细节和实验成果，探讨这一框架如何在速度与精度之间找到平衡。

一、VLM 推理的核心痛点：重复计算拖慢速度

视觉语言模型（VLM）已成为图文理解、视觉问答等任务的核心范式。它通常由两部分组成：视觉编码器（如 ViT）将图片转换成模型可理解的视觉 token，大语言模型（LLM）基于这些 token 和文本提示进行推理。

为了加速 LLM 推理，业界普遍采用 KV 缓存技术——将之前计算的键（Key）值（Value）对缓存起来，后续请求可直接复用，避免重复计算。但在 VLM 场景中，这一技术面临两大挑战：

前缀匹配限制：传统 KV 缓存要求新请求的前缀与缓存完全一致才能复用，而多模态场景中，同一图片搭配不同文本提示的情况极为常见，导致缓存命中率极低。
视觉 token 重要性难界定：现有位置无关缓存复用方法（如 CacheBlend、KVShare、MPIC）要么基于局部信息判断 token 重要性，要么依赖特定效应（如注意力 sink），均无法准确适配视觉 token 的特性，导致复用后精度大幅下降。

举个例子，CacheBlend 通过 KV 缓存距离判断 token 重要性，但实验证明，距离最远的 token 往往不是影响精度的关键；MPIC 将重计算预算分配给缓存块的早期 token，但其依赖的注意力 sink 效应在视觉 token 中并不适用——因为视觉 token 不像系统提示那样会吸引高注意力。

这些问题导致 VLM 在处理重复图像时，仍需重复计算大量视觉 token，推理速度大打折扣。而 VLCache 的出现，正是为了解决这些核心痛点。

二、相关工作：现有缓存复用方法的局限

为了更清晰地理解 VLCache 的创新价值，我们先梳理当前主流的位置无关 KV 缓存复用方法，看看它们各自的不足：

上表基于原论文相关工作分析整理，可以看出这些方法的共同问题是：缺乏对 VLM 缓存复用误差的本质理解，也没有系统考虑模型各层对精度的不同影响，导致要么速度提升有限，要么精度损失严重。而 VLCache 通过两大核心洞察，从根源上解决了这些问题。

表 5：Qwen3-VL-8B 模型与现有最优方法的性能对比。对比 VLCache（Ours）与 CacheBlend（Cache，基于 KV 缓存距离）、KVShare（Attn.，基于注意力图）；r 为统一重算率，数值为各数据集精度。相同重算率下 VLCache 均值均超两基线（如 r=0.1 时 74.42 vs 74.28 vs 73.64），验证累积复用误差效应理论有效性，动态策略未启用仍显优势。

三、核心洞察：解锁高效缓存复用的两大关键发现

VLCache 的成功，源于对 VLM 缓存复用误差的深入研究，团队提出了两个颠覆性的核心洞察，为后续算法设计奠定了理论基础。

3.1 洞察一：累积复用误差效应——早期 token 误差会“滚雪球”

在因果语言模型中，每个 token 的输出依赖于自身和所有前置 token。当复用缓存的视觉 token 时，由于新请求的上下文与原请求存在差异（即前缀不匹配），会产生两类误差：

自身复用误差：当前 token 复用缓存导致的直接误差。
传播误差：前置复用 token 的误差传递到当前 token 的累积误差。

第 k 个 token 的总误差可表示为：

这意味着，早期 token 的复用误差会像滚雪球一样，不断传递并累积到后续 token，最终导致推理精度严重下降。实验证明，选择性重计算早期 token，能有效抵消上游误差，抑制误差累积，如图 2 所示。

图 2：早期 token 重计算对误差累积的影响。在两种图像输入下，展示了不同重计算比例对后续 token 误差范数的影响。可见，重计算 10% 或 30% 的早期 token，能显著降低后续 token 的误差。

3.2 洞察二：层间重要性差异——不同层对精度的影响天差地别

VLM 的 Transformer 层对最终输出的贡献并不均衡：
* 部分层对缓存复用的误差更敏感，需要更高的重计算比例。
* 而有些层即使完全复用缓存，也不会明显影响精度。

为验证这一发现，团队在 Qwen2.5-VL-7B 模型上进行了实验：保持图像不变，替换文本提示生成“不匹配”的 KV 缓存，然后在单个层中重计算不同比例的视觉 token，测量生成文本的 MSE 损失（与使用正确 KV 缓存的原模型对比）。

图 3：不同层重计算比例的 MSE 损失对比。在 MMMU-Pro Standard（左）和 MMMU-Pro Vision（右）数据集上，重计算前 10%、20% 和 30% 图像 token 时，生成文本 logits 与原始模型（含正确 KV 缓存）logits 的均方误差（MSE）损失。结果表明，统一的重计算比例是次优的，敏感层需要更高的重算率。

实验结果清晰表明：使用统一的重计算比例（如现有方法）是次优的，必须根据层的敏感度动态分配重计算预算。

四、VLCache 核心设计：复用与重计算的完美平衡

基于上述两大洞察，VLCache 设计了一套端到端的视觉 token KV 缓存复用流程，其核心包括基础缓存机制和动态重计算策略两部分。

4.1 基础架构：哈希匹配+双层缓存复用

VLCache 的核心思路是：
* 对已处理过的图像，存储其视觉编码器输出和对应的 KV 缓存。
* 当再次遇到相同图像时，直接复用这些缓存，仅选择性重计算少量关键 token。

其整体流程如图 1 所示：

图 1：VLCache 整体架构。该图展示了 VLCache 的缓存存储与复用流程。缓存命中时，直接复用编码器输出和各层 KV 缓存，并在 KV 缓存中进行选择性重计算。缓存未命中则正常计算并存储两种缓存。

具体步骤如下：
1. 图像哈希匹配：收到多模态请求时，计算输入图像的全局哈希。若哈希已存在（缓存命中），直接读取存储的编码器缓存和 KV 缓存；若不存在（缓存未命中），执行完整计算并存储缓存。
2. 缓存内容：存储两部分关键数据——视觉编码器（ViT）对每个图像块的输出，以及 LLM 各层对应的 KV 缓存。
3. 计算跳过机制：对于复用的 token，跳过其对应的注意力计算和 MLP 计算，仅对选中的少量 token 执行完整计算。如图 4 所示，跳过部分计算后形成连续的计算区域，更适配硬件执行，进一步提升速度。

图 4：全注意力计算对比 VLCache 部分注意力计算。左图为传统全注意力计算，需处理所有 token；右图为 VLCache 部分计算，跳过复用 token 的计算，将查询与重算 token 拼接为输入，形成连续计算区域以提升硬件执行效率。

4.2 核心创新：动态层感知重计算策略

VLCache 的最大亮点，是基于层间重要性差异和累积误差效应，设计的动态重计算分配算法。该算法能在固定的总重计算预算下，最大化精度保留。

4.2.1 步骤 1：层敏感度评分

首先构造用于调优的小规模辅助数据集 D，对每个层 i，计算不同重计算比例 r 下的敏感度评分：
* S_i(r) 为层 i 在重计算比例 r 下的敏感度评分。
* y_orig 为使用正确 KV 缓存的原模型输出。
* y_i(r) 为复用不匹配 KV 缓存、仅在层 i 重计算 r 比例 token 的输出。

敏感度评分越高，说明该层对缓存复用误差越敏感，需要分配更高的重计算比例。

4.2.2 步骤 2：带约束的优化分配

在总重计算预算 R_total 约束下，最小化所有层的敏感度评分之和，同时满足两个关键约束：
1. 层重计算比例单调非递增：r_i >= r_{i+1}。这是因为 VLCache 复用上层保留 token 的隐藏状态并跳过后续计算，若深层重计算比例高于浅层，会导致需要重算的 token 在浅层未被保留，无法复用隐藏状态，从而违背加速目标。
2. 重计算比例离散取值：r_i ∈ {0, 0.1, 0.2, ..., 1.0}，适配实际部署需求。

优化目标可表示为：
min_{r_1,...,r_L} Σ_{i=1}^{L} S_i(r_i)
s.t. Σ_{i=1}^{L} r_i <= R_total, r_i >= r_{i+1}, r_i ∈ {0, 0.1, ..., 1.0}

4.2.3 步骤 3：贪心算法求解

由于优化问题属于整数规划，穷举搜索计算量过大，团队设计了贪心算法近似求解：
1. 初始化所有层的重计算比例为 0。
2. 每次选择“单位重计算比例提升带来敏感度评分下降最多”的层，增加其重计算比例（按离散步长）。
3. 重复步骤 2，直到总重计算比例达到 R_total。

该算法虽不保证全局最优，但能在极短时间内找到近似最优解，且实验证明其性能在多种模型和任务上表现优异。

4.3 SGLang 集成：工程化落地关键

为实现高效部署，VLCache 被集成到 SGLang 框架中，主要做了两处关键修改：
1. ViT 计算跳过：通过图像内容哈希实现请求级嵌入复用，命中缓存时完全跳过 ViT 编码器计算。
2. 细粒度 KV 缓存复用：为每张图像分配独立哈希，支持跨上下文的视觉内容复用；在注意力层使用块稀疏注意力，通过二进制掩码区分需要重计算的 token 和复用的 token。

集成后，VLCache 能透明地加速 VLM 推理，无需修改模型结构，完美适配长上下文多模态任务部署。

五、实验验证：16 倍加速+近无损精度的双重突破

团队在 Qwen2.5-VL、Qwen3-VL 系列模型（7B/32B/30B-A3B）上进行了全面实验，验证了 VLCache 在速度和精度上的双重优势。实验使用 NVIDIA H20-3e GPU，覆盖视觉问答、视觉数学、OCR、幻觉检测等 12 个主流数据集。

5.1 速度提升：最高 16 倍 TTFT 加速

TTFT（Time-To-First-Token）是衡量推理响应速度的关键指标，VLCache 在不同模型和图像 token 长度下均实现了显著加速。

Qwen3-VL-8B 模型的 TTFT 及加速比

表 1：Qwen3-VL-8B 模型的 TTFT 及加速比。r 表示静态重计算比例，r_avg 表示动态重计算的平均比例。可见静态无重计算（r=0.0）时加速比最高达 1.98x，动态重计算（r_avg=0.02）仍保持 1.51x-1.86x 加速。

Qwen3-VL-32B 模型的 TTFT 及加速比

表 2 展示了 Qwen3-VL-32B 模型在不同图像 Token 长度（1K-20K）下的首 Token 生成时间（TTFT）及加速比。配置与表 1 相同。结果显示，32B 模型的加速效果更为显著：静态无重计算策略（r=0.0）在 20K 图像 Token 时加速比达到 3.94倍；动态重计算策略（平均 r=0.025）仍能保持 3.18倍 的加速。根据论文分析，加速主要得益于 KV 缓存的复用，而 Vision Transformer 的高效架构使得这种复用收益随着图像 Token 数量的增加而愈发明显。

5.2 精度保留：99%近无损精度，动态策略更优

VLCache 的核心优势不仅是速度，更在于其近无损的精度保留。实验表明，即使仅重计算 2%-5% 的视觉 Token，其精度与全量计算（r=1.0）几乎一致。

Qwen3-VL-8B 模型在各数据集的精度（准确率%）

表 3：Qwen3-VL-8B 模型的精度保持情况。r=1.0 为全量计算基线。可见动态重计算策略（平均 r=0.025）下，平均精度达 74.49%，与全量计算（74.48%）几乎一致，甚至在部分数据集（如 HallusionBench）上精度更高。

Qwen3-VL-32B 模型在各数据集的精度（准确率%）

表 4：Qwen3-VL-32B 模型的精度保持情况。在动态重计算策略（平均 r=0.025）下，Qwen3-VL-32B 的平均精度达 79.44%，略高于全量计算基线（79.33%），证明动态策略能精准分配重计算资源，实现精度与速度的双赢。

关键结论：VLCache 的动态重计算策略在平均重计算比例仅为 2.5% 左右 时，就能实现与全量计算相当的精度，部分数据集甚至更高。这是因为动态策略将重计算资源精准分配到对精度影响最大的层和 Token 上，避免了静态策略均匀分配带来的资源浪费。

5.3 与 SOTA 方法对比：全面领先

研究团队将 VLCache 与 CacheBlend（基于 KV 缓存距离）和 KVShare（基于注意力图）进行了对比。结果显示，在相同的重计算比例下，VLCache 的精度全面领先。

表 5：Qwen3-VL-8B 模型与现有最优方法的性能对比。对比 VLCache（Ours）与 CacheBlend（基于 KV 缓存距离）、KVShare（基于注意力图）；r 为统一的重算率，数值为各数据集精度。在相同重算率下，VLCache 的平均精度均超过两个基线（例如 r=0.1 时，74.42 vs 74.28 vs 73.64），验证了其累积复用误差效应理论的有效性，即使未启用动态策略也显示出优势。

5.4 小结：动态策略的优势与权衡

综合以上实验结果，VLCache 动态重计算策略展现出两大核心优势：

极低重计算比例下的近无损精度：动态策略通过层间敏感度分析和累积误差效应，将有限的重计算资源精准分配到对输出质量影响最大的层和早期 Token 上。实验表明，在平均重计算比例仅为 2.5% 左右 时，其在多个数据集上的平均精度已与全量计算持平甚至略有超越，实现了真正的“近无损”精度保留。
更优的加速‑精度权衡：静态策略（如 r=0.0）虽然能取得最高的加速比（如在 Qwen2.5‑VL‑32B 模型上最高达 16.88 倍），但往往伴随着一定的精度下降。而动态策略通过引入极低的重计算比例（平均 2.5%‑3.5%），在保留绝大部分加速收益的同时，将精度损失降至几乎为零，甚至在某些数据集上反超全量计算基线。这种巧妙的权衡使得动态策略更适用于对精度要求严苛的生产环境。

此外，与现有 SOTA 方法（如 CacheBlend、KVShare）相比，VLCache 的动态策略在相同重计算比例下均取得了更高的精度，这进一步验证了其基于层间重要性差异和累积误差效应的设计优越性。

六、总结与展望

VLCache 通过两大核心创新——累积复用误差效应的发现和动态层感知重计算策略，实现了视觉语言模型推理加速的突破性进展：

效率飞跃：仅重计算 2%-5% 的视觉 Token，就能实现 1.2 倍至 16 倍的 TTFT 加速，图像 Token 越长，加速效果越显著。
精度近无损：动态分配重计算资源，使精度与全量计算几乎一致，部分场景甚至更高。
易于部署：集成到 SGLang 框架，支持哈希匹配、细粒度缓存复用，无需修改模型结构，适配实际部署需求。

这一工作的价值不仅在于技术突破，更在于为多模态模型的高效部署提供了全新范式。未来，VLCache 的发展方向主要有两个：

扩展到相似图像：当前仅支持完全相同图像的缓存复用，未来可探索相似图像的缓存迁移与适配，进一步提升缓存命中率。
多模态扩展：将缓存复用策略扩展到语音、视频等其他模态，解决更广泛场景的多模态推理效率问题。

对于开发者和企业而言，VLCache 的落地将大幅降低 VLM 的部署成本——在不损失精度的前提下，减少硬件资源消耗，提升用户响应速度，尤其适用于智能客服、图文检索、自动驾驶等对实时性要求高的场景。

随着大模型向多模态、长上下文方向发展，推理效率将成为核心竞争力。VLCache 的出现，无疑为这一领域的发展注入了强大动力。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17386