DeepSeek-OCR 提出的视觉文本压缩(Vision-Text Compression, VTC)技术,通过将文本编码为视觉 Token,实现了高达 10 倍的压缩率,显著降低了大模型处理长文本的计算与显存成本。然而,一个核心问题随之浮现:视觉语言模型(VLM)能否真正理解这种高度压缩后的高密度信息?
为了系统性地评估模型在视觉压缩范式下的认知能力,来自中科院自动化所等机构的研究团队推出了首个专门针对 VTC 的基准测试——VTCBench。

- 论文链接:https://arxiv.org/abs/2512.15649
- VTCBench 链接: https://github.com/Moenupa/VTCBench
- VLMEvalKit 链接:https://github.com/bjzhb666/VLMEvalKit
- Huggingface 链接: https://huggingface.co/datasets/MLLM-CL/VTCBench

图 1:视觉 – 文本压缩 (VTC) 流程演示及 VTCBench
与传统大模型直接处理海量文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先将长文档渲染为高密度的 2D 图像,再由视觉编码器转换为少量视觉 Token,从而实现 2 至 10 倍的 Token 压缩率。
VTCBench 已全面开源,其衍生版本 VTCBench-Wild 集成了 99 种不同的渲染配置(涵盖字体、字号、行高等),旨在全方位评估模型在复杂现实场景下的鲁棒性,并已集成至 VLMevalkit。
核心使命:衡量“看得见”之后的“看得懂”
尽管当前 VLM 在 OCR 识别上表现出色,但其对 VTC 压缩后高密度信息的长文本理解能力仍存疑。VTCBench 通过三大任务,系统性评估模型在视觉空间中的认知极限:
- VTC-Retrieval (信息检索):在视觉“大海”中寻找特定事实的“针”,测试模型对空间分布信息的捕捉能力。
- VTC-Reasoning (关联推理):挑战模型在几乎没有文本重叠的情况下进行关联推理,超越单纯的词汇检索。
- VTC-Memory (长期记忆):模拟超长对话,评估模型在视觉压缩框架下抵御时间与结构性信息衰减的能力。
揭秘视觉压缩背后的认知瓶颈

图 2:VTCBench 针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实在文档中的深度。
测试结果揭示了一个显著的“U 型曲线”:与文本模型类似,VLM 能够精准捕捉开头和结尾的信息,但对于文档中间部分的事实,其理解能力会随着文档变长而急剧衰退。这证明即使在视觉空间,模型依然存在严重的“空间注意力偏见”,这是未来 VTC 架构优化的关键方向。
行业洞察:视觉压缩是长文本的终局吗?

通过对 GPT、Gemini、Claude、QwenVL 等 10 余种尖端模型的深度评测,VTCBench 得出以下洞察:
- 尽管 VTC 极大提升了效率,但现有 VLM 在复杂推理和记忆任务上的表现仍显著弱于纯文本 LLM。
- 消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度。
- Gemini-3-Pro 在 VTCBench-Wild 上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了 VTC 是实现大规模长文本处理的可行路径。
总结
如果说传统的长文本处理是“逐字阅读”,那么 DeepSeek-OCR 所引领的 VTC 范式则像是“过目成诵”的摄影式记忆。VTCBench 的出现,正是为了确保模型在获得这种高效“超能力”的同时,依然能够精准理解被压缩信息的内涵。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17933
