信息检索
-
视觉压缩革命:DeepSeek-OCR与VTCBench如何重塑长文本理解的未来?
DeepSeek-OCR 提出的视觉文本压缩(Vision-Text Compression, VTC)技术,通过将文本编码为视觉 Token,实现了高达 10 倍的压缩率,显著降低了大模型处理长文本的计算与显存成本。然而,一个核心问题随之浮现:视觉语言模型(VLM)能否真正理解这种高度压缩后的高密度信息? 为了系统性地评估模型在视觉压缩范式下的认知能力,来…
DeepSeek-OCR 提出的视觉文本压缩(Vision-Text Compression, VTC)技术,通过将文本编码为视觉 Token,实现了高达 10 倍的压缩率,显著降低了大模型处理长文本的计算与显存成本。然而,一个核心问题随之浮现:视觉语言模型(VLM)能否真正理解这种高度压缩后的高密度信息? 为了系统性地评估模型在视觉压缩范式下的认知能力,来…