关键词:视觉令牌修剪、多模态大语言模型、高效训练、训练-推理不匹配、双模训练
近年来,多模态大语言模型在图像描述、视觉问答、视觉定位、多模态推理等任务中取得了显著突破,成为人工智能领域的重要研究方向。然而,随着模型规模不断扩大、视觉输入分辨率持续提升,MLLMs 的训练成本急剧上升,成为制约其发展和应用的关键瓶颈。
传统的效率优化方法主要聚焦于模型压缩、参数高效微调和视觉编码器嫁接等方面,但往往忽视了另一个关键因素——视觉令牌数量。
在典型的多模态模型中,一张图像会被编码为数百甚至数千个视觉令牌,这些令牌与大语言模型中的自注意力机制相结合,产生了二次计算复杂度,导致训练过程极其耗时耗力。

- 论文标题:Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning
- 论文链接:https://arxiv.org/pdf/2602.03815
- 代码仓库:https://github.com/dingkun-zhang/DualSpeed
来自哈工大、港科大最新研究的突破性工作《Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning》提出了一个创新性的解决方案:DualSpeed 双速训练框架。
DualSpeed 框架通过快慢双模式协同训练解决上述问题。
* 快模式作为主训练模式,集成现有视觉令牌修剪方法作为插件缩减视觉令牌,并引入可学习的模式隔离器,引导模型适配剪枝后的输入。
* 慢模式为辅助模式,基于完整视觉序列训练以保证训练-推理一致性,同时借助自蒸馏从充分训练的快模式中学习,提升训练效果。

图 3 | DualSpeed 框架总览。该框架包含快模式和慢模式,两种模式在不同迷你批次间随机切换。快模式是主要模式,用于最大化训练效率;慢模式是辅助模式,用于保证训练与推理的一致性。不同的视觉令牌剪枝方法均可作为插件接入 DualSpeed 框架。图中详细展示了 DualSpeed 双模式的运行机制:快模式通过接入 VTP 减少视觉令牌,以交叉熵损失高效训练;慢模式用完整视觉序列训练,还引入自蒸馏,以快模式为教师模型提升学习效果。二者共享 LLM 权重,按概率切换,既利用快模式提升训练速度,又靠慢模式避免训练-推理不匹配,兼顾效率与性能。
实验结果表明,DualSpeed 在 LLaVA-1.5 上实现 2.1 倍训练提速,在 LLaVA-NeXT 上提速达 4.0倍,且在 9 个视觉语言基准测试中均保留 99% 以上性能。
研究还验证了不同 VTP 方法的适配性,证实约 90% 的视觉令牌在训练中具有冗余性,且框架对关键超参数具有良好鲁棒性。 该框架首次将 VTP 有效融入 MLLMs 训练流程,兼顾训练效率与性能稳定性,为高分辨率多模态模型的高效训练提供了可行方案。

图 1 | DualSpeed 能显著加快多模态大语言模型的训练速度,同时保证性能不下降。它能实现最高 4.0 倍的训练加速,且性能几乎没有损失。该图直观呈现了 DualSpeed 框架的核心优势。在 MLLMs 训练中,传统方法常面临速度与性能难以兼顾的问题,而 DualSpeed 通过快慢双模式协作,在减少视觉令牌数量提升训练效率的同时,借助慢模式保证训练与推理的一致性,最终实现了训练加速与性能保留的双赢,为大规模 MLLMs 训练提供了高效解决方案。
零、关键问题
问题一:模式隔离器:是根本解决方案还是行为掩盖?
DualSpeed 通过“模式隔离器”实现快慢模式切换,但该机制本质上是依赖一个可学习的软提示前缀来引导模型对不同输入长度做出响应。这是否意味着模型只是学会了根据前缀存在与否“切换行为”,而非真正学会了同时处理修剪与完整序列的内在表征? 若去除模式隔离器,模型是否能保持对完整序列的推理能力?这反映了方法是否真正解决了训练-推理不匹配,还是仅通过外部信号掩盖了问题。
模式隔离器:训练中的“脚手架”与推理时的可选项
模式隔离器是 DualSpeed 框架的关键设计之一。它通过一个可学习的软提示前缀,引导模型在处理修剪序列时激活“快速感知模式”,而在处理完整序列时不使用此前缀,从而切换到另一种模式。从机制上看,这相当于在模型外部提供了一个区分输入类型的“开关信号”。
然而,实验表明,在推理时若完全移除模式隔离器,模型在完整序列上的性能几乎不受影响(99.61%),在修剪序列上的性能也仅轻微下降(从 98.12% 降至 98.10%)。这说明:
- 模型已内化对完整序列的稳健理解,其核心能力不依赖于外部提示。
- 模式隔离器在训练中主要扮演“脚手架”角色,帮助模型清晰区分两种输入分布,防止学习混淆,但其本身并非推理时的必需品。
因此,DualSpeed 并非简单地掩盖问题,而是通过结构化的训练引导,使模型同时掌握两种模式的处理能力,并最终将其内化为统一的表征。移除隔离器后性能得以保留,正是该方法成功解决训练-推理不匹配问题的实证。
普适性探讨:架构与任务的边界
论文实验主要基于 LLaVA 系列模型(视觉编码器为 CLIP-ViT),验证了 DualSpeed 在图像模态上的有效性。一个自然的问题是:该方法是否具有更广泛的普适性?例如,当更换为不同架构的视觉编码器(如基于对象查询的 DETR 或采用层次化窗口注意力的 Swin Transformer)或更复杂的多模态投影器时,其快慢模式协作与自蒸馏机制是否依然有效?特别是在视频理解等高动态任务中,视觉令牌的时空冗余模式与图像差异显著,DualSpeed 的修剪策略与模式隔离设计是否需要调整?
从原理上分析,其普适性可从两个维度探讨:
| 维度 | 内容分析 |
| :— | :— |
| 视觉编码器差异 | 若更换为 DETR 或 Swin Transformer 等编码器,其令牌生成方式与空间冗余模式可能与标准 ViT 不同。DualSpeed 依赖的令牌修剪准则(如基于多样性的准则)可能需要针对不同编码器的特征分布进行适配,但快慢双模协作的训练框架本身具备可迁移性。 |
| 任务拓展性 | 在视频理解等任务中,视觉令牌兼具时空冗余。当前的修剪策略主要针对空间维度,要扩展到视频领域,需考虑时间维度的修剪(如跨帧令牌修剪)。同时,模式隔离器可能需要增强以区分时空上下文。尽管如此,双模训练与自蒸馏的核心思想仍具有指导价值,只需针对时序结构进行针对性调整。 |
总之,DualSpeed 的核心思想——通过双模训练兼顾效率与性能一致性——具有架构无关性,但其具体实现组件(如修剪准则、隔离器设计)需根据视觉编码器的令牌特性与任务需求进行适配。未来需要在更多架构(如 Video-LLaMA、InternVL)及动态任务上进行系统验证,以全面评估其普适性。
一、MLLM 训练效率瓶颈与视觉令牌剪枝的潜力
1.1 多模态大语言模型的基本架构
多模态大语言模型通常由三个核心组件构成:
- 视觉编码器:将原始视觉输入(如图像、视频帧)转换为视觉令牌序列。
- 多模态投影器:将视觉令牌映射到文本特征空间。
- 大语言模型:统一处理视觉和文本令牌,执行跨模态理解和生成任务。
以 LLaVA-1.5 为例,它采用 CLIP-ViT-L/14 作为视觉编码器,将一张 336×336 分辨率的图像转换为 576 个视觉令牌。而更高分辨率的模型如 LLaVA-NeXT,每张图像可产生多达 2880 个视觉令牌。这些视觉令牌与大语言模型的自注意力机制相结合,产生了 O(n²) 的计算复杂度,其中 n 为令牌总数。
1.2 视觉令牌冗余性问题
研究表明,并非所有视觉令牌都对多模态理解至关重要。许多令牌对应于冗余或低信息区域,例如:
- 均匀背景
- 重复纹理
- 无关细节区域
这些冗余令牌不仅增加了计算负担,还可能引入噪声,影响模型的学习效率。视觉令牌剪枝技术正是基于这一洞察而发展起来的,它通过动态识别和删除冗余令牌,在推理阶段显著提升了效率。
1.3 训练-推理不匹配的挑战
尽管 VTP 在推理阶段表现出色,但将其直接应用于训练阶段却面临一个根本性挑战:训练-推理不匹配。具体来说,当模型仅在剪枝后的视觉序列上进行训练时,它难以在完整的、未经剪枝的视觉序列上进行有效推理。
这种不匹配可能源于多方面的差异:
- 序列长度差异:剪枝序列远短于完整序列。
- 信息密度差异:剪枝序列的信息密度更高。
- 空间结构差异:剪枝可能破坏原始的空间拓扑关系。

图 2 | 训练-推理不匹配导致性能差距的示意图。从理论上讲,由于剪枝会造成视觉信息丢失,剪枝推理的性能上限低于正常推理。因此,要实现接近 100% 的性能,关键在于解决训练-推理不匹配问题。此图揭示了视觉令牌剪枝在训练中应用的核心难题:当模型仅用剪枝序列训练时,在正常推理(使用完整序列)和剪枝推理(使用剪枝后序列)中均会出现性能差距。DualSpeed 的设计初衷正是针对性解决此不匹配问题,以缩小性能差距。
性能上界理论分析显示,剪枝推理的性能上限低于正常推理,因为剪枝必然导致部分视觉信息丢失。因此,实现接近 100% 性能的关键路径在于解决训练-推理不匹配问题。

表 1 | 不同视觉令牌剪枝方法在推理和训练场景下的性能对比(修剪率 p 统一为 90%)。该表验证了 VTP 方法在训练与推理中的关联性:推理性能更优的 VTP 方法(如 CDPruner),在训练中表现也更接近最优。这为 DualSpeed 选择合适的 VTP 插件提供了依据。
如表 1 所示,当直接在训练中应用 VTP 时,模型在正常推理(使用完整视觉序列)下的性能仅为基线的 95.89%,而在剪枝推理下性能为 97.85%。这表明训练-推理不匹配导致了显著的性能损失。
二、DualSpeed 框架:双速训练的创新设计
为了解决训练-推理不匹配问题,研究团队提出了 DualSpeed 框架,其核心思想是让模型在训练过程中同时学习处理剪枝序列和完整序列的能力。

图 3 | DualSpeed 框架总览。该框架包含快模式和慢模式,两种模式在不同迷你批次间随机切换。快模式是主要模式,用于最大化训练效率;慢模式是辅助模式,用于保证训练与推理的一致性。不同的视觉令牌剪枝方法均可作为插件接入。图中展示了双模式的运行机制:快模式通过接入 VTP 减少视觉令牌,以交叉熵损失高效训练;慢模式使用完整序列,并引入自蒸馏损失,以快模式为教师模型提升学习效果。二者共享 LLM 权重,兼顾效率与性能。
2.1 整体架构设计
DualSpeed 框架包含两种在训练过程中随机切换的模式:
- 快速模式:主要训练模式,使用剪枝后的视觉序列进行高效训练。
- 慢速模式:辅助训练模式,使用完整的视觉序列进行训练,以确保模型掌握对原始输入的完整理解能力,并与快速模式通过自蒸馏进行协同优化。
两种模式的切换遵循以下概率分布:
其中 为慢速模式的激活概率,通常设置为 10%。
2.2 快速模式:高效学习剪枝序列
2.2.1 视觉令牌剪枝
在快速模式中,首先对视觉令牌进行剪枝。给定剪枝比例 ,通过 VTP 方法获得剪枝后的视觉令牌序列:
其中, 为剪枝后的视觉令牌序列长度,通常 ,显著减少了视觉令牌数量。
2.2.2 模式隔离器
为了让模型能够区分处理剪枝序列和完整序列,DualSpeed 引入了模式隔离器 ,这是一个可学习的软提示(soft prompt):
其中 为隔离器长度,通常设置为 4。在快速模式中,模式隔离器作为前缀与剪枝后的视觉序列连接:
其中 ⊕ 表示连接操作。模式隔离器的作用是明确提示大语言模型激活特定的感知模式来处理剪枝序列。
2.2.3 训练目标
快速模式采用原始交叉熵损失函数:
其中表示模型 θ 预测的条件概率分布,为文本令牌序列。
快速模式的训练目标为:
2.3 慢速模式:保持训练-推理一致性
2.3.1 完整序列训练
慢速模式使用完整的、未经剪枝的视觉序列进行训练,确保模型学习处理完整输入的能力。这部分的训练目标同样基于交叉熵损失:。
2.3.2 自蒸馏技术
由于快速模式占据了大部分训练时间(通常 90%的批次使用快速模式),慢速模式可能得不到充分训练。为了解决这一问题,DualSpeed 引入了自蒸馏 技术: 将充分训练的快速模式作为“教师”,指导慢速模式“学生”的学习。
蒸馏损失计算为教师和学生输出 logits 之间的 KL 散度:
其中和分别是教师和学生的温度缩放 logits 分布,表示大语言模型的 logits,τ 为蒸馏温度(通常设置为 1)。
2.3.3 慢速模式训练目标
慢速模式的最终训练目标是交叉熵损失和蒸馏损失的加权和:
尽管教师模型(基于剪枝序列训练)的能力有限,但学生模型通过交叉熵损失可以学习完整视觉信息,最终超越教师模型的能力。
2.4 整体训练框架
DualSpeed 的整体训练目标由快速模式和慢速模式的损失加权组成:
其中是指示函数,和分别由公式 5 和 7 定义。
三、实验设计与结果分析
3.1 实验设置
研究团队在广泛使用的 LLaVA-1.5 和 LLaVA-NeXT 模型上验证了 DualSpeed 的有效性。实验设置严格遵循原始模型的训练配方,包括模型结构、训练数据、超参数等。
训练阶段划分 :
- 预训练阶段 :仅训练多模态投影器
- 监督微调阶段 :训练多模态投影器和大语言模型
训练数据 :
- 预训练阶段:LLaVA-Pretrain-558K 字幕数据集
- 监督微调阶段:LLaVA-665K 指令调优数据集
高效实验配置 : 在监督微调阶段使用 LoRA(Low-Rank Adaptation)进行参数高效微调,严格保持所有比较的公平性。根据官方结果,使用 LoRA 训练 LLaVA-1.5 可以达到与全参数调优几乎相当的性能。
3.2 核心实验结果
3.2.1 训练加速与性能保持
图 4 | (a)LLaVA-1.5-7B 模型上的结果;(b)LLaVA-NeXT-7B 模型上的结果。图中对比了 DualSpeed 与基准模型(Baseline)的训练时间和性能。我们在监督微调(SFT)阶段均匀保存了 10 个检查点,并对其性能进行评估。由于预训练阶段的模型无法遵循许多基准测试的通用指令,因此未评估该阶段的性能。训练时间从预训练开始时记录,所有时间数据均在单块 NVIDIA L40 显卡上测得。注:由于无法获取 LLaVA-NeXT 可复现的训练方案,其训练采用了 LLaVA-1.5 的训练方案和数据。
- 在 LLaVA-1.5-7B 模型上的实验结果显示,DualSpeed 实现了2.1 倍的整体训练加速,同时保持了99.61%的最终性能,如图 4a 所示 。特别值得注意的是,在预训练阶段,DualSpeed 实现了5.8 倍的加速,这远高于整体加速比。这主要是因为 LLaVA-1.5 的 监督微调阶段中,视觉令牌所占比例较低(训练样本包含较长的文本查询和答案),从而降低了 VTP 对整体训练加速的贡献。
- 在更高分辨率的 LLaVA-NeXT-7B 模型上,DualSpeed 的表现更加出色,实现了4.0 倍的整体训练加速,如图 4b 所示 ,同时保持了99.04%的最终性能, 高分辨率模型有更大比例的视觉令牌,这放大了 VTP 带来的加速效果。
3.2.2 不同 VTP 方法的比较
研究团队比较了 DualSpeed 使用不同 VTP 方法时的性能,以及这些 VTP 方法在推理时的原始性能。选择了三种代表性的 VTP 方法:
- FasterVLM :基于注意力的剪枝方法
- DivPrune :基于多样性的剪枝方法
- CDPruner :基于条件多样性的剪枝方法
实验结果如表 1 所示:
表 1 | 不同视觉令牌修剪(VTP)方法在推理和训练场景下的性能对比。为保证公平性,所有涉及修剪的实验中,修剪率 p 均统一设为 90%。最优结果和次优结果分别用粗体和下划线标注。
实验发现,在推理时性能更好的 VTP 方法,在训练时也往往能获得更好的结果 。具体来说:
- 在推理时:FasterVLM ≪ DivPrune ≤ CDPruner
- 在训练时:FasterVLM ≪ DivPrune ≈ CDPruner
不同 VTP 方法之间的相对性能关系在推理和训练中并不完全一致,但观察到一般的正相关趋势。
3.2.3 训练-推理差距的量化分析
研究团队比较了基线模型、NaivePrune 和 DualSpeed 在正常推理和剪枝推理设置下的性能,如表 2 所示:
表 2 | 不同方法在正常推理和修剪推理设置下的性能对比。“含模式隔离器(w/mode isolator)” 表示在修剪推理时使用训练好的模式隔离器。为保证公平性,所有涉及修剪的实验中,修剪率 p 均统一设为 90%。正常推理和修剪推理下的最优结果用粗体标注。
从上表可以看出,NaivePrune 在正常推理下性能显著低于基线(95.89% vs 100%),而在剪枝推理下性能相对较高(97.85%),因为此时训练和推理是一致的(都使用剪枝序列)。 这暗示了剪枝训练模型在正常推理中性能不佳是由训练-推理不匹配引起的。
相比之下,DualSpeed 缓解了这种不匹配,与 NaivePrune 相比,在正常推理中带来了3.72%的性能提升 。因此,DualSpeed 能够弥合的训练-推理差距约为 3.72%。 通过弥合这一差距,DualSpeed 达到了与基线相当的性能(仅-0.39%)。
DualSpeed 的训练加速效果由两个关键超参数决定:剪枝比例 p 和慢速模式激活概率 r。研究团队通过实验探索了不同参数组合下的速度-性能权衡,结果如图 5 所示。

图 5 | (a) 不同剪枝率 (p) 下的速度-性能权衡;(b) 不同慢模式激活概率 (r) 下的速度-性能权衡。实验设置如下:固定慢模式激活概率 r=10%,评估不同剪枝率 p (50%, 60%, 70%, 80%, 90%, 95%) 的效果;固定剪枝率 p=90%,评估不同慢模式激活概率 r (50%, 40%, 30%, 20%, 10%, 5%, 0%) 的效果。当 r=0% 时,DualSpeed 退化为简单剪枝 (NaivePrune) 方法。所有加速数据均在单块 NVIDIA L40 显卡上测得。
图 5 为超参数选择提供了关键依据:
* 图 (a) 显示,当剪枝率 p 低于 90% 时,提高 p 能持续加速训练且性能保持稳定;一旦 p 超过 90%,模型性能急剧下降。这表明 大约 90% 的视觉令牌在训练中是冗余的。
* 图 (b) 表明,当慢模式激活概率 r 高于 20% 时,性能保持稳定;当 r 低于 10% 时,性能开始下降。最终,研究团队确定 p≈90%、r≈10% 为最优参数组合,此时模型在速度与性能的权衡中处于帕累托最优前沿。
3.3 消融研究
研究团队通过在 NaivePrune 基础上逐步添加每个核心设计模块,对 DualSpeed 进行了消融研究,以验证各模块的有效性,结果如表 3 所示。

表 3 | 核心设计模块的消融实验结果。通过在 NaivePrune 基础上逐步添加各设计模块,构建不同的模型变体。所有实验的训练加速比均在单块 NVIDIA L40 显卡上测得。
消融研究揭示了两个关键发现:
1. 快-慢模式实现了优越的速度-性能权衡:仅引入“快慢模式”设计,就能将 NaivePrune 的 95.89% 性能保持率显著提升至 98.88%,代价仅为 0.3 倍的训练加速下降。
2. 模式隔离器和自蒸馏带来进一步改进:在此基础上加入“模式隔离器”和“自蒸馏”模块,性能保持率进一步提升至 99.61%,且对训练加速的影响可忽略不计。
最终,DualSpeed 相对于基线 NaivePrune 实现了 3.72% 的性能改进,达到了 99.61% 的近乎无损性能保持。
3.3.1 模式隔离器长度消融
研究团队进一步对模式隔离器的长度 l 进行了消融研究,结果如图 6 所示。

图 6 | 模式隔离器长度 l 的消融研究。长度为 0 表示不使用模式隔离器。
实验发现:
* 使用长度 l ≥ 1 的模式隔离器时,模型性能相比不使用(l=0)有明显提升。这表明模式隔离器能有效帮助模型区分剪枝序列与完整序列的输入模式。
* 当 l 超过 4 后,性能提升趋于饱和,说明过长的模式隔离器不会带来额外收益,反而可能增加计算开销。因此,最终选择 l=4 作为模式隔离器的最优长度。
3.4 在不同训练阶段应用 VTP
研究团队探索了视觉令牌修剪(VTP)在不同训练阶段(预训练与监督微调)应用的效果,结果如表 4 所示。

表 4 | 在不同训练阶段应用视觉令牌修剪(VTP)的实验结果。本实验采用 DivPrune 作为 VTP 方法,修剪率设为 90%。表格中 “✔” 表示在对应阶段应用 VTP,“✘” 表示不应用。
实验结果揭示了关键差异:
* 仅在预训练阶段应用 VTP 时,最终模型性能没有下降(100.12% 对比原始的 100.00%),甚至略有提升。研究团队推测,这是因为预训练阶段主要优化多模态投影器,VTP 通过消除低贡献的视觉令牌,帮助投影器更专注于学习关键视觉特征的映射。
* 在监督微调(SFT)阶段应用 VTP 时,性能下降幅度(95.83%)与在两个阶段都应用 VTP 时(95.89%)接近。这证实了训练-推理不匹配问题主要影响大语言模型的自注意力机制,而非多模态投影器,为 DualSpeed 在 SFT 阶段重点启用双模式设计提供了实验支撑。
四、相关工作
4.1 多模态大语言模型
多模态大语言模型(MLLMs)通过将视觉和语言模态统一到一个框架中,实现了前所未有的跨模态理解能力。代表性工作包括 LLaVA 系列、InstructBLIP、Qwen-VL 等。这些模型通常采用视觉编码器(如 CLIP-ViT)提取视觉特征,通过多模态投影器将视觉特征对齐到文本特征空间,最后由大语言模型(如 Vicuna、LLaMA)进行统一处理。
然而,随着模型规模和视觉分辨率的增长,MLLMs 的训练成本急剧上升。一张高分辨率图像可能产生数千个视觉令牌,与大语言模型的自注意力机制相结合,产生了巨大的计算负担。
4.2 视觉令牌减少方法
现有的视觉令牌减少方法主要分为三类:
| 方法类别 | 内容说明 |
| :— | :— |
| 投影器优化方法 | 设计特定的多模态投影器来压缩视觉令牌,例如通过池化或多尺度聚合。然而,这些方法通常对特定架构优化,缺乏跨架构的泛化能力和可扩展性。 |
| 令牌合并方法 | 将冗余令牌聚合为紧凑且有代表性的嵌入。这类方法的一个固有局限性是聚合操作模糊了多个令牌之间的空间局部性,并改变了视觉令牌的特征分布。 |
| 视觉令牌剪枝方法 | 动态识别并根据某些标准(如注意力分数、多样性或条件多样性)丢弃冗余令牌。VTP 方法具有架构无关性,不改变视觉令牌的特征分布。然而,现有的 VTP 方法主要面向推理阶段,忽视了训练动态。直接在训练时应用 VTP 技术会破坏模型的学习过程,导致严重的训练-推理不匹配。 |
4.3 高效训练技术
除了视觉令牌减少外,其他高效训练技术包括:
1. 模型压缩:通过知识蒸馏、量化、剪枝等方法减少模型大小。
2. 参数高效微调:如 LoRA、Adapter 等方法,仅微调少量参数。
3. 视觉编码器嫁接:重用预训练的视觉编码器,避免从头训练。
DualSpeed 框架与这些方法正交,可以结合使用以获得进一步的效率提升。
五、技术深度解析
5.1 训练-推理不匹配的理论分析
训练-推理不匹配是应用 VTP 到 MLLM 训练的核心挑战。 其根本原因在于训练中使用的剪枝序列与正常推理中使用的完整序列之间存在三个关键方面的差异:
5.2 模式隔离器的工作原理
模式隔离器是 DualSpeed 框架中的关键创新组件,其工作原理类似于一个“开关”,用于指示模型当前应激活的感知模式。
- 在快速模式中:模式隔离器作为前缀与剪枝后的视觉令牌序列连接,提示模型激活“高效感知模式”,使其专注于从高信息密度的剪枝序列中学习。
- 在慢速模式中:模式隔离器不被使用,模型直接激活“完整感知模式”,学习处理信息完整但密度较低的原始序列。
模式隔离器的长度经过精心设计,旨在提供明确的模式信号的同时,最小化额外的计算开销。消融实验表明,长度为4的模式隔离器在性能与效率之间取得了最佳平衡。
5.3 自蒸馏技术的创新应用
自蒸馏技术在 DualSpeed 框架中发挥了关键作用,有效解决了慢速模式训练样本不足的问题。其创新性主要体现在以下三个方面:
- 参数共享的师生架构:教师模型(快速模式)与学生模型(慢速模式)共享完全相同的模型参数,仅输入序列(剪枝/完整)不同。这使得知识传递更为高效和直接。
- 非对称训练策略:教师模型仅执行前向传播以生成监督信号,不参与梯度计算与反向传播,显著降低了计算负担。
- 互补学习目标:学生模型通过蒸馏损失从教师模型学习高效感知模式,同时通过标准的交叉熵损失在完整序列上学习完整的感知能力,最终获得超越教师模型的综合性能。
这种自蒸馏设计确保了模型能够同时受益于剪枝序列的高效训练和完整序列的能力保持,实现了训练效率与最终推理性能的最佳平衡。
六、实验细节与复现指南
6.1 训练配方
研究团队严格遵循 LLaVA-1.5 的训练设置以确保实验的可比性与可复现性。关键配置总结如下表:

表 5 | LLaVA-1.5 训练方案配置表。该表详细列出了预训练与监督微调(SFT)阶段的各项超参数。
统一的训练方案是验证 DualSpeed 在不同模型与场景下稳健性的基础。核心要点包括:预训练阶段仅训练视觉投影器;SFT阶段同时训练投影器与大语言模型,并采用LoRA技术降低显存消耗。
6.2 评估细节
研究团队在9个具有代表性的视觉理解基准上对 DualSpeed 进行了全面评估:
| 数据集/基准 | 说明 |
| :— | :— |
| VQAv2 | 通用视觉问答基准 |
| GQA | 现实世界视觉推理与组合问答数据集 |
| SQA | 科学问答数据集 |
| TextVQA | 需要阅读图像中文本的视觉问答 |
| POPE | 对象幻觉评估基准 |
| MME | 多模态大语言模型综合评估基准 |
| MMBench | 多模态模型全方位评估基准 |
| MMBench-CN | 中文版 MMBench |
| SEED-Bench | 基于生成理解的多模态大语言模型基准 |
所有评估均遵循各基准的默认设置与官方评估指标,以确保公平性和结果的可重复性。
6.3 复现注意事项
对于希望复现或应用 DualSpeed 的研究者与实践者,以下注意事项可供参考:
- VTP 方法选择:论文默认使用 DivPrune,但实验表明 CDPruner 等方法同样有效。应根据具体任务需求与计算约束选择合适的视觉令牌剪枝方法。
- 超参数调优:剪枝比例
p和慢速模式激活概率r是两个关键超参数。建议从p=90%和r=10%开始,并根据任务表现进行微调。 - 硬件要求:实验在 NVIDIA L40 (48GB) GPU 上进行。得益于其计算需求降低的特性,DualSpeed 在较低配置的硬件上也能实现显著的训练加速。
- 与现有技术结合:DualSpeed 可与其他高效训练技术(如 LoRA、量化等)结合使用,以获得进一步的效率提升。
七、结论与展望
DualSpeed 框架通过创新的双模式训练设计,成功解决了视觉令牌剪枝导致的训练-推理不匹配问题,为多模态大语言模型的高效训练提供了切实可行的解决方案。实验证明,该方法能够在保持模型性能几乎无损(>99%)的前提下,实现显著的训练加速(2.1-4.0倍),为 MLLM 的大规模训练与应用扫除了重要障碍。
7.1 核心贡献总结
- 问题识别:首次系统性地识别并分析了视觉令牌剪枝在训练阶段面临的训练-推理不匹配问题及其三种具体表现形式。
- 创新框架:提出了 DualSpeed 双速训练框架,通过快-慢模式切换、模式隔离器和自蒸馏技术,实现了高效训练与性能保持的平衡。
- 实证验证:在多个主流模型和基准测试上验证了框架的有效性,实现了显著的训练加速与极高的性能保留率。
- 深入分析:通过系统的消融研究与理论分析,深入揭示了训练-推理不匹配的根源及 DualSpeed 各组件的工作机制。
7.2 未来研究方向
基于 DualSpeed 的工作,未来可能的研究方向包括:
| 研究方向 | 具体内容 |
| :— | :— |
| 自适应剪枝策略 | 开发能根据输入内容与任务需求动态调整剪枝比例的自适应 VTP 方法。 |
| 多粒度训练 | 探索包含极速、中速、慢速等多种剪枝比例模式的更灵活训练机制。 |
| 跨模态扩展 | 将双速训练框架扩展至音频、视频等其他模态的高效训练场景。 |
| 理论深化 | 进一步从理论层面分析双速训练框架的收敛性与最优性,为超参数选择提供指导。 |
| 系统优化 | 将 DualSpeed 与模型并行、数据并行等分布式训练技术深度结合,实现超大规模 MLLM 的高效训练。 |
以 DualSpeed 为代表的高效训练技术正在推动多模态大语言模型进入新的发展阶段。通过持续的技术创新,我们有望构建出更高效、更强大、更易普及的多模态人工智能系统。
- RK3566 GPU内存省11.2%,能耗降42.3%!软硬件协同框架 NanoMind:分解多模态模型到端侧异构SoC
- Qwen2-VL-3B 模型在瑞芯微 RK3576 开发板 NPU 上多模态和多轮对话部署指导与评测
- 2.1倍加速!吞吐量超同等 Qwen3 17%!华为 Pangu Light:激进剪枝下加速!昇腾 NPU 精度效率双平衡!
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20655
