HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持

随着多模态大语言模型(MLLM)支持的上下文长度不断增长,高分辨率图像和长视频输入会产生远多于文本的视觉标记(Token)。在自注意力机制二次计算复杂度的制约下,这些海量视觉Token迅速成为模型推理效率的瓶颈。

现有研究通常采用渐进式剪枝来减少视觉Token,但大多采用固定的剪枝策略,未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。

通过对MLLM内部信息流的深入分析,本文发现不同层级的处理功能存在显著差异:浅层主要负责传递视觉特征,中层承担跨模态融合任务,而深层则专注于语义整合与推理。视觉信息在模型层间的传递与演化呈现明显的非均匀性。

基于上述观察,宁波东方理工大学(宁波数字孪生研究院)沈晓宇团队提出了HiDrop方法。该方法通过延迟注入(Late Injection)凹金字塔式剪枝(Concave Pyramid Pruning)提前退出(Early Exit)三项核心设计,构建了一种与模型层级功能对齐的视觉Token压缩策略。

实验结果表明,在压缩约90%的视觉Token的情况下,HiDrop仍能保持98.3%的原始模型性能,并实现1.72倍的训练加速与2.2倍的预填充加速。

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持
图1:不同视觉Token剪枝策略对比。FastV与TwigVLM在浅层进行早期剪枝,PDrop在各层采用统一比例剪枝,而HiDrop则根据层级功能动态调整:浅层延迟注入,中层进行非均匀剪枝,深层提前移除剩余Token,从而在保持性能的同时显著降低计算开销。

该论文已被ICLR 2026接收。
* 论文标题:HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
* 论文链接:https://arxiv.org/pdf/2602.23699
* 代码仓库:https://github.com/EIT-NLP/HiDrop

核心发现:揭示MLLM内部信息处理的动态机制

为深入理解MLLM如何处理与整合视觉信息,作者分析了模型表征在不同层级的演化过程。具体方法包括:计算各模态表征在层间的余弦相似度,以衡量模态内部表征的变化;同时,观察固定指令文本嵌入在匹配不同图像时的变化,以评估视觉信息对文本表示的跨模态影响强度。

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持
图2:MLLM各层的信息表征动态。左图展示了模态内部表征的逐层精化过程,右图则反映了视觉与语言之间的跨模态交互强度。

  • 浅层:左图显示,浅层视觉Token表征具有高度自相似性,仅在连续层间发生微小变化,表明大语言模型(LLM)在此阶段对视觉信息的处理可忽略不计。右图显示,浅层中固定指令的文本嵌入对不同图像几乎保持不变,表明有意义的跨模态融合尚未发生。因此,浅层主要充当视觉信息的传递通道,负责将特征向更深层传播,而非进行实质性语义处理。
  • 中层:与浅层不同,中层成为跨模态融合的关键阶段。此时,视觉信息开始显著影响文本表示,表明模型正在主动整合视觉与语言信息,完成语义对齐。进一步分析发现,这一融合过程具有明显稀疏性:仅有少量关键视觉Token对文本表示产生决定性影响,大量Token则相对冗余。因此,中层成为视觉Token压缩的关键阶段。
  • 深层:当跨模态融合在中层基本完成后,模型进入以抽象语义推理为主的阶段。此时,视觉信息对文本表示的直接影响逐渐减弱,模型更多依赖已融合的语义表示进行高层推理。

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持
图3:中层视觉Token的稀疏性分析。左图:不同p值下的视觉标记压缩曲线,较低的p值对应更强的剪枝。右图:即使在高压缩率下,模型性能仍保持稳定,表明该剪枝策略具有良好的鲁棒性。

综上所述,MLLM的信息处理呈现出清晰的层级结构:浅层传递信息,中层进行融合,深层负责推理。这一发现为设计更合理的视觉Token压缩策略提供了关键依据。

核心方法:HiDrop的三段式层级对齐压缩策略

基于对MLLM层级信息处理动态的分析,作者提出了HiDrop框架。该框架通过与模型层级结构对齐的视觉Token压缩策略,在保证性能的同时显著降低计算开销。如图4所示,HiDrop将视觉Token的处理划分为浅层、中层和深层三个阶段,并分别设计不同的压缩策略,使计算资源分配与实际信息处理过程相匹配。

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持
图4:HiDrop框架概述。(a) 框架示意图:浅层专注视觉无关推理,中层通过凹金字塔式方案多阶段剪枝冗余标记,深层实现视觉提前退出。(b) Hard Top-k算子与Differentiable Top-k算子的对比,后者实现自适应选择并更好地保留信息。

  1. 浅层:视觉延迟注入(Late Injection)
    根据分析,浅层对视觉信息的处理有限,视觉Token主要被动地向深层传播。因此,HiDrop不会在模型输入时立即注入视觉Token,而是将其延迟到跨模态融合起始的更深层再引入。注入位置通过视觉表征层间相似性曲线(图2)中的局部最小值进行识别。由于浅层不承担融合任务,这种延迟注入能在减少计算量的同时几乎不影响性能。

  2. 中层:凹金字塔式剪枝(Concave Pyramid Pruning)
    中层是跨模态融合的关键阶段,且视觉Token贡献呈现稀疏性。HiDrop在此阶段采用激进的凹金字塔式剪枝策略,以先急后缓的方式减少视觉Token,并引入Differentiable Top-k算子实现自适应选择,在保留关键信息的同时降低计算开销。
    为确定剪枝层级位置,作者提出了层间视觉注意力相似性(Inter-Layer Visual Attention Similarity, ILVAS)指标,通过衡量视觉Token注意力在相邻层间的稳定性来识别适合过滤的层,并根据ILVAS曲线的局部极值确定中层的剪枝位置。

  3. 深层:视觉提前退出(Early Exit)
    当跨模态融合在中层基本完成后,模型进入高层语义推理阶段,视觉Token的影响显著减弱。因此,HiDrop在深层提前移除剩余视觉Token,使后续层仅处理融合后的语义表示。
    退出位置通过从深到浅的掩码分析来确定,选择性能趋于稳定的点,以减少深层注意力计算。结合浅层的延迟注入与深层的提前退出,HiDrop实际上形成了一个聚焦的视觉处理窗口,将视觉Token的计算集中在中间层。消融实验表明,该窗口识别策略能实现良好的效率-性能权衡。

此外,HiDrop针对动态Token选择带来的实现挑战进行了优化,例如采用持久化位置编码以保持位置一致性、保持与FlashAttention的兼容性,并通过并行解耦视觉计算进一步缩短预填充时间。

实验结果:更高压缩率,更优性能,更佳效率

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持

在多个多模态基准测试上,HiDrop在更高压缩率下仍保持优异性能。实验结果表明,当压缩率为88.9%时,仍能保持98.3%的原始性能;即使压缩率提升至91.7%,其性能仍优于PDrop在88.9%压缩率下的表现,展现出更优的压缩-性能权衡。

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持

除了保持性能,HiDrop 还显著提升了计算效率。该方法将平均视觉 Token 数量减少了约 90%,大幅降低了推理时的浮点运算量(FLOPs)。在 LLaVA-1.5-7B 模型上,HiDrop 实现了约 1.7 倍的训练加速和 2.2 倍的预填充加速。

总结

本文从多模态大语言模型内部的信息处理动态出发,揭示了视觉信息在不同网络层中的功能差异,并据此提出了 HiDrop 压缩框架。实验结果表明,HiDrop 在实现极高视觉 Token 压缩率的同时,仍能保持接近原始模型的性能,并显著提升了训练与推理效率。这项研究表明,理解模型内部的信息流结构是设计高效多模态模型的重要方向。

作者介绍

第一作者吴浩,是宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队的科研助理,研究方向为多模态大模型压缩和流式大模型。其研究成果已在 ICLR、CVPR、ECCV 等顶级会议上发表多篇论文,其中一篇入选最佳论文奖决赛。

HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27040

(0)
上一篇 19小时前
下一篇 5小时前

相关推荐

  • vLLM Playground:可视化界面让大模型推理部署零门槛

    用过 vLLM 的人都知道,它功能强大,但上手门槛不低。命令行参数繁多,容器配置复杂,生产部署更是令人头疼。 今天介绍的开源项目 vLLM Playground 正是为了解决这些问题而生。它提供了一个可视化的 vLLM 管理界面,让大模型的部署和使用变得简单直观。 真正的零配置 最便捷之处在于你无需手动安装 vLLM。只需打开 Web 界面,点击“Start…

    2025年12月29日
    27800
  • FlowPrefill:突破LLM推理瓶颈,算子级抢占实现5.6倍吞吐提升与严格SLO保障

    关键词: LLM 服务系统 、预填充、 队头阻塞 、 _ SLO 感知调度_ 、 算子级抢占 、事件驱动调度 当我们正在使用一个智能聊天机器人,输入了一个简短的问题,满怀期待地等待回复。然而, 由于服务器正在处理一个长篇文档总结任务,请求被堵在后面,迟迟得不到响应,眼睁睁看着“正在输入”的提示转个不停 。这种体验像极了早高峰堵车——一辆大货车慢悠悠地走在前面…

    2026年2月25日
    16600
  • NVIDIA Blackwell架构微基准深度解析:FP4/FP6赋能LLM推理2.5倍加速,36.3TFLOPS FP64重塑科学计算

    关键词:Blackwell、GPU、 Microbenchmark 、5th-generation Tensor Core 、 TMEM 本文工作量化了张量内存(TMEM)对矩阵密集型负载的影响,评估了硬件解压缩引擎(DE)的吞吐量及最优使用方式,通过新的tcgen05 PTX 指令分析了第五代张量核心的执行特性。 此外,还评估了 FP4 与 FP6 精度的…

    2026年1月13日
    17500
  • PaddleOCR-VL:文档理解新突破,复杂表格公式一键精准解析

    传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时,往往输出杂乱,需要大量人工整理。近期,百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。 尽管其参数量仅为 9 亿,但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分,位列榜首。在推理速度上,相比同类模型 Mine…

    2025年11月5日
    17800
  • DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍

    DeepSeek 联合北大清华发布 DualPath 框架:利用闲置网卡突破 Agent 推理 I/O 瓶颈,性能提升近 2 倍 当业界广泛关注 DeepSeek 的 GitHub 仓库,期待其下一代模型发布时,DeepSeek 与北京大学、清华大学的研究团队在 arXiv 上悄然发布了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架的核…

    2026年2月27日
    14400