视觉压缩革命：VIST框架如何让大语言模型像人类一样高效阅读长文本

2025年11月10日下午12:08 • AI产业动态 • 阅读 102

在人工智能领域，大语言模型（LLM）的上下文长度扩展与计算效率之间的矛盾日益凸显。NeurIPS 2025会议上，南京理工大学、中南大学、南京林业大学联合研究团队提出的VIST（Vision-centric Token Compression in LLM）框架，通过创新的视觉压缩机制，为大语言模型的长文本处理提供了突破性解决方案。这一技术路径与近期备受关注的DeepSeek-OCR理念高度契合，标志着多模态学习在文本处理领域的深度应用。

当前大语言模型面临的核心挑战在于：随着模型参数规模从数十亿扩展至万亿级别，处理长文档理解、复杂问答、检索增强生成（RAG）等任务所需的上下文长度已增至数万甚至数十万token。在这种“参数膨胀”与“上下文激增”的双重压力下，传统的文本token压缩技术已接近瓶颈。VIST框架的诞生，正是为了解决这一根本性难题——让大模型在处理海量信息时，既能保持深度理解能力，又能显著提升计算效率。

该研究团队的核心洞察源于对人类阅读行为的深入观察。人类在阅读长文本时，大脑会自动采用“选择性注意”机制：高频功能词（如“的”“了”“和”）被快速略过，而承载核心语义的低频词（名词、动词、数字等）则被重点处理。VIST框架正是模拟这种认知机制，设计了“快-慢阅读通路”的双通道架构。

快路径（Fast Path）负责全局扫描：将相对次要的长距离上下文渲染为文本图像，通过冻结的轻量级视觉编码器快速提取显著性语义特征。这些视觉特征再经过Resampler模块进行4倍压缩，最终通过cross-attention机制与LLM主输入整合。这种设计巧妙地将视觉处理的高效性与语言模型的深度理解能力相结合。

慢路径（Slow Path）则专注于核心分析：将关键近处文本直接输入大语言模型，进行深度推理和语言生成。这种“扫视远处、专注近处”的协作模式，模拟了人类眼睛与大脑的分工机制，让模型真正具备了类似人类的速读与精读能力。

技术实现层面，VIST引入了创新的“概率感知视觉增强”（PVE）机制。该机制采用基于词频的掩码策略，在训练过程中自动识别并屏蔽高频低信息量词汇，同时重点保留低频高信息量内容。这种语义优化策略指导Resampler模块从文本图像中精准提取关键信息，有效解决了传统视觉编码器在渲染文本理解上的局限性。

实验数据充分证明了VIST的卓越性能。在开放域问答任务及11个In-Context Learning基准测试中，VIST显著优于基于文本编码器的压缩方法CEPE。更令人印象深刻的是，在极端条件下（全部文本仅通过视觉编码器处理），VIST在开放域问答任务中达到了与TinyLlama相当的性能水平。效率方面，VIST在处理相同文本内容时，所需视觉token数量仅为传统文本token的56%，显存使用减少50%，实现了计算效率的质的飞跃。