HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

随着多模态大语言模型（MLLM）支持的上下文长度不断增长，高分辨率图像和长视频输入会产生远多于文本的视觉标记（Token）。在自注意力机制二次计算复杂度的制约下，这些海量视觉Token迅速成为模型推理效率的瓶颈。

现有研究通常采用渐进式剪枝来减少视觉Token，但大多采用固定的剪枝策略，未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。

通过对MLLM内部信息流的深入分析，本文发现不同层级的处理功能存在显著差异：浅层主要负责传递视觉特征，中层承担跨模态融合任务，而深层则专注于语义整合与推理。视觉信息在模型层间的传递与演化呈现明显的非均匀性。

基于上述观察，宁波东方理工大学（宁波数字孪生研究院）沈晓宇团队提出了HiDrop方法。该方法通过延迟注入（Late Injection）、凹金字塔式剪枝（Concave Pyramid Pruning）和提前退出（Early Exit）三项核心设计，构建了一种与模型层级功能对齐的视觉Token压缩策略。

实验结果表明，在压缩约90%的视觉Token的情况下，HiDrop仍能保持98.3%的原始模型性能，并实现1.72倍的训练加速与2.2倍的预填充加速。

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持
图1：不同视觉Token剪枝策略对比。FastV与TwigVLM在浅层进行早期剪枝，PDrop在各层采用统一比例剪枝，而HiDrop则根据层级功能动态调整：浅层延迟注入，中层进行非均匀剪枝，深层提前移除剩余Token，从而在保持性能的同时显著降低计算开销。

该论文已被ICLR 2026接收。
* 论文标题：HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
* 论文链接：https://arxiv.org/pdf/2602.23699
* 代码仓库：https://github.com/EIT-NLP/HiDrop

核心发现：揭示MLLM内部信息处理的动态机制

为深入理解MLLM如何处理与整合视觉信息，作者分析了模型表征在不同层级的演化过程。具体方法包括：计算各模态表征在层间的余弦相似度，以衡量模态内部表征的变化；同时，观察固定指令文本嵌入在匹配不同图像时的变化，以评估视觉信息对文本表示的跨模态影响强度。

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持
图2：MLLM各层的信息表征动态。左图展示了模态内部表征的逐层精化过程，右图则反映了视觉与语言之间的跨模态交互强度。

浅层：左图显示，浅层视觉Token表征具有高度自相似性，仅在连续层间发生微小变化，表明大语言模型（LLM）在此阶段对视觉信息的处理可忽略不计。右图显示，浅层中固定指令的文本嵌入对不同图像几乎保持不变，表明有意义的跨模态融合尚未发生。因此，浅层主要充当视觉信息的传递通道，负责将特征向更深层传播，而非进行实质性语义处理。
中层：与浅层不同，中层成为跨模态融合的关键阶段。此时，视觉信息开始显著影响文本表示，表明模型正在主动整合视觉与语言信息，完成语义对齐。进一步分析发现，这一融合过程具有明显稀疏性：仅有少量关键视觉Token对文本表示产生决定性影响，大量Token则相对冗余。因此，中层成为视觉Token压缩的关键阶段。
深层：当跨模态融合在中层基本完成后，模型进入以抽象语义推理为主的阶段。此时，视觉信息对文本表示的直接影响逐渐减弱，模型更多依赖已融合的语义表示进行高层推理。

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持
图3：中层视觉Token的稀疏性分析。左图：不同p值下的视觉标记压缩曲线，较低的p值对应更强的剪枝。右图：即使在高压缩率下，模型性能仍保持稳定，表明该剪枝策略具有良好的鲁棒性。

综上所述，MLLM的信息处理呈现出清晰的层级结构：浅层传递信息，中层进行融合，深层负责推理。这一发现为设计更合理的视觉Token压缩策略提供了关键依据。

核心方法：HiDrop的三段式层级对齐压缩策略

基于对MLLM层级信息处理动态的分析，作者提出了HiDrop框架。该框架通过与模型层级结构对齐的视觉Token压缩策略，在保证性能的同时显著降低计算开销。如图4所示，HiDrop将视觉Token的处理划分为浅层、中层和深层三个阶段，并分别设计不同的压缩策略，使计算资源分配与实际信息处理过程相匹配。

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持
图4：HiDrop框架概述。(a) 框架示意图：浅层专注视觉无关推理，中层通过凹金字塔式方案多阶段剪枝冗余标记，深层实现视觉提前退出。(b) Hard Top-k算子与Differentiable Top-k算子的对比，后者实现自适应选择并更好地保留信息。

浅层：视觉延迟注入（Late Injection）
根据分析，浅层对视觉信息的处理有限，视觉Token主要被动地向深层传播。因此，HiDrop不会在模型输入时立即注入视觉Token，而是将其延迟到跨模态融合起始的更深层再引入。注入位置通过视觉表征层间相似性曲线（图2）中的局部最小值进行识别。由于浅层不承担融合任务，这种延迟注入能在减少计算量的同时几乎不影响性能。
中层：凹金字塔式剪枝（Concave Pyramid Pruning）
中层是跨模态融合的关键阶段，且视觉Token贡献呈现稀疏性。HiDrop在此阶段采用激进的凹金字塔式剪枝策略，以先急后缓的方式减少视觉Token，并引入Differentiable Top-k算子实现自适应选择，在保留关键信息的同时降低计算开销。
为确定剪枝层级位置，作者提出了层间视觉注意力相似性（Inter-Layer Visual Attention Similarity, ILVAS）指标，通过衡量视觉Token注意力在相邻层间的稳定性来识别适合过滤的层，并根据ILVAS曲线的局部极值确定中层的剪枝位置。
深层：视觉提前退出（Early Exit）
当跨模态融合在中层基本完成后，模型进入高层语义推理阶段，视觉Token的影响显著减弱。因此，HiDrop在深层提前移除剩余视觉Token，使后续层仅处理融合后的语义表示。
退出位置通过从深到浅的掩码分析来确定，选择性能趋于稳定的点，以减少深层注意力计算。结合浅层的延迟注入与深层的提前退出，HiDrop实际上形成了一个聚焦的视觉处理窗口，将视觉Token的计算集中在中间层。消融实验表明，该窗口识别策略能实现良好的效率-性能权衡。

此外，HiDrop针对动态Token选择带来的实现挑战进行了优化，例如采用持久化位置编码以保持位置一致性、保持与FlashAttention的兼容性，并通过并行解耦视觉计算进一步缩短预填充时间。

实验结果：更高压缩率，更优性能，更佳效率

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

在多个多模态基准测试上，HiDrop在更高压缩率下仍保持优异性能。实验结果表明，当压缩率为88.9%时，仍能保持98.3%的原始性能；即使压缩率提升至91.7%，其性能仍优于PDrop在88.9%压缩率下的表现，展现出更优的压缩-性能权衡。

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

除了保持性能，HiDrop 还显著提升了计算效率。该方法将平均视觉 Token 数量减少了约 90%，大幅降低了推理时的浮点运算量（FLOPs）。在 LLaVA-1.5-7B 模型上，HiDrop 实现了约 1.7 倍的训练加速和 2.2 倍的预填充加速。

总结

本文从多模态大语言模型内部的信息处理动态出发，揭示了视觉信息在不同网络层中的功能差异，并据此提出了 HiDrop 压缩框架。实验结果表明，HiDrop 在实现极高视觉 Token 压缩率的同时，仍能保持接近原始模型的性能，并显著提升了训练与推理效率。这项研究表明，理解模型内部的信息流结构是设计高效多模态模型的重要方向。

作者介绍

第一作者吴浩，是宁波东方理工大学 / 宁波数字孪生（东方理工）研究院沈晓宇团队的科研助理，研究方向为多模态大模型压缩和流式大模型。其研究成果已在 ICLR、CVPR、ECCV 等顶级会议上发表多篇论文，其中一篇入选最佳论文奖决赛。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/27040

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

核心发现：揭示MLLM内部信息处理的动态机制

核心方法：HiDrop的三段式层级对齐压缩策略

实验结果：更高压缩率，更优性能，更佳效率

总结

作者介绍

相关推荐

昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

DeepSeek R1爆更86页论文：开源模型如何用强化学习实现推理能力突破

突破极端边缘计算极限：AI引擎如何让科学推理性能飙升4倍，打破FPGA部署瓶颈

SkipOPU：突破动态推理瓶颈，FPGA加速大语言模型效率革命

颠覆AI推理：24人团队打造芯片即模型，每秒17000个token硬刚英伟达