这篇论文真正要解决的核心问题,并非是单纯提升视觉语言模型的回答质量,而是要在实际部署场景中,彻底摆脱逐 token 自回归解码对推理速度的束缚。
在过去两年间,视觉语言模型早已超越了“看图问答”的单一功能,演变为物理 AI、机器人、自动驾驶、文档理解、图表分析以及多模态智能体等领域的通用感知与推理核心模块。
虽然模型本身的智能水平提升迅速,但其推理机制却依然高度依赖自回归解码:每一步仅生成一个 token,在生成下一个 token 前,必须完整读取已生成的上下文、加载全部模型参数,并执行一轮完整的前向计算。这套机制在云端大 batch 服务中,尚能通过批处理来摊薄成本,但在机器人和车端这类 batch size 固定为 1 的物理 AI 场景中,其效率问题被急剧放大。
- Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM
- https://arxiv.org/abs/2604.06832
- 项目主页:https://nvlabs.github.io/Fast-dLLM/fast_dvlm
- 代码仓库:https://github.com/NVlabs/Fast-dLLM
- 8000 字,阅读 40 分钟,播客 29 分钟
论文明确指出,单请求 VLM 推理的瓶颈往往不在于算力不足,而在于内存带宽被自回归解码反复消耗。每生成一个 token,模型都需要重新调动海量参数,却只利用了硬件很小一部分并行计算能力。由此引出一个自然的问题:既然 VLM 的文本生成部分本质上仍是语言模型生成,能否将文本领域正蓬勃发展的离散扩散与块级并行生成技术引入 VLM,实现从“一次只吐一个 token”到“一个 block 内多个 token 并行去噪”的范式转变?
Fast-dVLM 给出了肯定的答案。它以 Qwen2.5-VL-3B 作为自回归基座,将其直接转换为 block-diffusion VLM,支持与 KV Cache 兼容的块级并行解码,并进一步集成了自投机块解码、SGLang serving 集成以及 SmoothQuant W8A8 FP8 量化**。论文报告称:
- 在 11 个多模态 benchmark 上,Fast-dVLM 的短答任务平均质量与 AR 基线持平;
- 在 MMMU-Pro-V 的长链式推理场景中,最终系统路径相对于自回归基线实现了 6.18× 的端到端推理加速。
表 1:短答案基准性能对比(第一部分)。该表格对比了 AR 与扩散类 VLM 在 8 个短答案多模态基准上的表现。Fast-dVLM(MDM/推测解码)在 GQA、POPE 等任务上超越了 AR 基线,平均精度逼近 Qwen2.5-VL-3B。在同期扩散 VLM 中,Fast-dVLM 在 11 个短答案基准里取得了 8 项最优,远超 LaViDa、Dimple 等模型。这表明块扩散架构能够在短答案任务中实现精度无损,同时具备显著的推理加速潜力。表 2:基准性能对比(第二部分)。该表格补充了长答案基准 MMMU-Pro-V 与 Tokens/NFE 指标。Fast-dVLM 推测解码的平均精度为 74.0,与 AR 基线完全持平,Tokens/NFE 达到 2.63×,MDM 解码为 1.95×。在长文本推理中,推测解码将精度差距缩小至 1.7 分,证明块扩散结合自推测解码,能有效缓解并行去噪带来的长文本连贯性问题,兼顾速度与长文本性能。
Fast-dVLM 的关键价值,并非简单地将扩散模型套用到 VLM 上,而是找到了一个可落地的折中点:块与块之间仍然采用自回归方式以保留 KV 缓存,而块内部则通过离散扩散并行生成,从而充分释放硬件的并行度。
unsetunset本文目录unsetunset
- 本文目录
- 一、为什么 VLM 推理需要换一种生成范式
- 二、核心问题:把扩散语言模型扩展到 VLM 为什么难
- 三、直接转换还是两阶段转换:论文最重要的经验结论
- 3.1 两阶段路径
- 3.2 直接路径
- 四、训练设计:Fast-dVLM 如何让块扩散适配多模态输入
- 4.1 Causal context attention:保留 AR 模型的因果结构
- 4.2 Block-size annealing:不要一上来就让模型处理大块噪声
- 4.3 Auto-truncation mask:防止短回答跨越下一轮 prompt
- 4.4 Vision-efficient concatenation:视觉 token 不要复制两份
- 4.5 训练目标:扩散损失与因果 LM 损失共同约束
- 五、推理机制:从 MDM 到自投机块解码
- 5.1 Causal context decoding:每个 block 先由一个 AR token 启动
- 5.2 MDM decoding 的阈值权衡
- 5.3 Self-speculative block decoding:同一个模型既 draft 又 verify
- 5.4 SGLang 与 FP8:系统优化把算法收益兑现到端到端
- 六、实验结果:质量是否真的保住了
- 6.1 短答任务:平均质量匹配 AR 基线
- 6.2 长答任务:MMMU-Pro-V 仍是难点
- 6.3 消融:哪些组件最关键
- 七、把 Fast-dVLM 的核心机制压成一条链
- 八、相关工作:Fast-dVLM 站在扩散 LLM、扩散 VLM 和投机解码的交汇处
- 8.1 离散扩散语言模型
- 8.2 扩散视觉语言模型
- 8.3 投机解码与扩散投机解码
- 九、结论与展望
- 9.1 结论总结
- 9.2 进阶分析
- 9.3 未来工作
unsetunset一、为什么 VLM 推理需要换一种生成范式unsetunset
自回归解码的低效,在大模型推理中并非新问题;但在物理 AI 和边缘 VLM 场景中,它已从性能问题演变为部署瓶颈。
视觉语言模型的主流推理方式依然是 autoregressive decoding。假设输出 token 序列为 ,自回归模型按如下方式分解概率:
这意味着生成过程具有严格的串行依赖:必须先得到 ,才能生成 。
二、核心挑战:为何将扩散语言模型扩展至VLM困难重重
在纯文本对话场景中,自回归解码的逐token生成模式已经构成了吞吐量的瓶颈。然而,在视觉语言模型(VLM)中,问题变得更加棘手,因为其前缀不仅包含文本,还混入了视觉token、图像编码器的输出、多轮对话的历史记录以及结构化的提示信息。
论文特别聚焦于物理AI(Physical AI)的应用场景。机器人、自动驾驶车辆和具身智能体通常不像云端服务那样需要同时处理海量请求,它们往往是在单设备上,处理单一观察流,并以batch size为1的方式进行实时推理。在这种特定模式下,自回归解码呈现出典型的内存带宽受限(memory-bandwidth-bound)特征:每生成一个token,都需要触发一次完整的模型参数读取和前向计算。但由于batch size极小,Tensor Core的并行计算能力很难被充分利用。
扩散式语言模型提供了一条截然不同的路径。与自回归模型不同,掩码扩散(masked diffusion)会随机遮蔽一部分token,并让模型学习如何从噪声状态恢复出干净的token:
如果多个token能在同一轮前向传播中同时进行去噪,那么吞吐量就不再被“一个token一次前向”的规则严格限制。但问题在于,普通的全序列扩散很难有效地利用增量KV缓存。尤其是在长上下文、多轮对话以及VLM的视觉前缀场景下,直接采用全局双向注意力机制会让服务系统退回到低效状态。
Fast-dVLM 选择了逐块离散扩散(block-wise discrete diffusion)方案:
- 序列被分割成多个块(block),块与块之间仍然按顺序生成,已完成生成的块可以复用其KV缓存;
- 而在每个块内部,所有token则并行地进行去噪。
这种结构既保留了自回归模型在增量缓存方面的优势,又部分释放了扩散模型在并行生成方面的潜力。
图 1:论文总览。 该图从速度-精度权衡、多基准测试、端到端推理加速三个维度展示了Fast-dVLM的核心效果。在速度-精度维度上,Fast-dVLM在MMMU-Pro-V任务上精度与自回归(AR)基线持平,同时实现了大幅提速;在多基准测试中,它基于Qwen2.5-VL-3B基座,在各类多模态任务上精度几乎无损;在推理加速方面,结合SGLang与FP8量化,最终实现了超过6倍的端到端加速。这验证了块扩散架构能够突破AR解码的吞吐量瓶颈,完美适配机器人、自动驾驶等单批次边缘物理AI部署场景。
从系统架构的角度来看,Fast-dVLM 的目标并非“取代所有AR VLM”,而是在batch size为1、长输出、边缘或物理AI等特定场景下,将原本受内存带宽限制的逐token生成,尽可能地转化为更能利用硬件并行计算能力的块级生成。
二、核心问题:把扩散语言模型扩展到 VLM 为什么难
文本扩散模型已经证明了块级并行生成的潜力,但VLM并不是简单地在文本前面拼接一段图像token就能搞定的。
论文将挑战拆解得非常清晰。Fast-dVLM 基于 Fast-dLLM v2,但从纯文本的扩散LLM(dLLM)扩展到VLM,至少需要解决四类问题。
- 第一,转换策略问题。 应该先把LLM的骨干网络(backbone)转换成扩散LLM,然后再接上视觉模块进行多模态微调?还是直接把一个已经预训练好的AR VLM一步到位地转换成扩散VLM?这不仅仅是一个训练流程的偏好问题,而是决定模型能否保留已有多模态对齐能力的关键。
- 第二,多轮对话边界问题。 VLM的训练数据中包含大量短回答,例如选择题可能只回答一个字母。如果块大小(block size)是固定的,而回答的长度不是块大小的整数倍,那么最后一个去噪块(denoising block)很可能会越过当前回答的边界,看到下一轮的提示token。这样在训练时就会导致未来信息泄漏。
- 第三,训练效率问题。 Fast-dLLM v2 采用了噪声流(noisy stream)与干净流(clean stream)的双流设计。如果简单地把视觉token同时复制到噪声流和干净流中,会浪费大量的显存和计算资源。更重要的是,视觉嵌入(embedding)本身并不需要被掩码,因此没有必要在噪声流中重复出现。
- 第四,因果兼容问题。 许多块扩散方法在历史上下文上使用块级上下文注意力(block-level context attention),但这会破坏预训练AR模型原本的token级因果结构(token-level causal structure),也会让同一模型无法自然地执行AR验证(AR verification),从而影响自投机解码(self-speculative decoding)。
表 3:训练配方消融实验。 该表格验证了因果上下文、自动截断、块大小退火等组件的作用。移除因果上下文会导致精度暴跌22.5%,是其最核心的组件;移除退火机制,长文本推理精度下降32.5%;移除自动截断,MMMU精度下降14.4%。这四大训练配方协同工作:因果注意力保留了AR推理能力,退火提升了在大去噪跨度下的稳定性,自动截断则避免了多轮对话中的信息泄漏。
Fast-dVLM 的方法部分,本质上就是围绕这四个问题给出了一个工程上可训练的解决方案:直接转换、因果上下文注意力(causal context attention)、自动截断掩码(auto-truncation mask)、视觉高效拼接(vision-efficient concatenation),再加上自投机块解码(self-speculative block decoding)和SGLang服务。
三、直接转换还是两阶段转换:论文最重要的经验结论
Fast-dVLM 最有价值的训练结论是:不要先把文本LLM转成扩散模型再重建多模态能力,直接从已经对齐好的AR VLM进行转换会更有效。
论文系统性地比较了两种从自回归到扩散(AR-to-diffusion)的转换路径。
3.1 两阶段路径
两阶段路径首先从Qwen2.5-Instruct-3B这样的AR LLM出发,使用文本数据按照Fast-dLLM v2的配方训练出一个扩散LLM。随后,再接入视觉编码器和MLP投影器(projector),并在多模态数据上进行联合微调,最终得到一个扩散VLM。
这条路线看起来更“模块化”:先解决语言扩散问题,再解决视觉对齐问题。但它有一个严重缺陷:第二阶段实际上是在让一个纯文本的扩散LLM重新学习视觉与语言的对齐。对于有限的训练预算来说,这种做法效率非常低下。
3.2 直接路径
直接路径则从一个完整的、已经预训练好的AR VLM(如Qwen2.5-VL-3B)出发,在多模态数据上一次性将其转换成块扩散VLM。它的优势在于继承了已有VLM在预训练过程中学到的视觉-语言对齐能力,训练过程只需要适配生成范式,而不是重新搭建多模态语义的桥梁。
图 2:两种转换策略。 图中对比了两阶段转换与直接转换的路径。两阶段路径先对LLM进行纯文本扩散微调,再接入视觉编码器进行多模态微调;直接转换则一步到位地将完整的预训练AR VLM转换成块扩散模型。论文实验证实,在同等训练预算下,直接转换的效率远高于两阶段,因为它直接复用了预训练好的视觉-文本对齐能力,无需从零重建多模态关联。最终,直接转换被确定为Fast-dVLM的核心技术路线,既简化了流程,又提升了性能。
实验结果非常明确。在10个基准测试上,直接路径的平均得分为73.3,而两阶段路径仅为60.2;直接路径在所有10个基准测试上的表现都超过了后者。差距最大的任务包括DocVQA、ChartQA和AI2D,论文分别报告了+31.5、+21.4和+18.1的优势。
图 4:直接转换与两阶段转换在10个基准上的对比。 雷达图直观地显示,直接转换的平均得分为73.3,而两阶段路径仅为60.2。在DocVQA、ChartQA、AI2D等推理密集型任务上,两者差距超过18分。两组实验的训练数据和算力预算完全一致,直接转换之所以胜出,是因为它继承了预训练VLM的多模态对齐先验知识,无需重新学习视觉与文本的关联。这充分证明了直接转换在训练效率上的优势,也是Fast-dVLM选型的核心依据。
这组结果清楚地表明,VLM的多模态对齐能力并非一个可以在短时间内通过训练轻易重建的附属模块。对于扩散化VLM来说,最有效的路径不是“从文本扩散模型出发再接入视觉模块”,而是“从已经完成多模态对齐的AR VLM出发,直接改造其生成机制”。
直接路径胜出:核心训练经验
直接转换路径的最终胜出,构成了Fast-dVLM全篇最重要的训练洞见:扩散目标可以后续添加,但多模态对齐最好避免从零开始。
论文作者对此保持着审慎态度。他们并未断言两阶段训练路径的性能上限必然更低,而是提出一个假设:两种路径可能拥有相似的最终天花板,其主要差异体现在训练预算的利用效率上。在相同或可比的训练预算条件下,直接路径显然更具性价比,因此被确立为默认训练方案(recipe)。
四、训练设计:Fast-dVLM 如何让块扩散适配多模态输入
Fast-dVLM 的训练方案并非单一技巧,而是一套相互配合的约束体系:哪些 token 可以被掩码(mask),哪些上下文必须保持因果性,哪些视觉 token 不应被重复。
设完整输入为:
其中 是视觉 token 的嵌入向量, 是文本 token 的嵌入向量。Fast-dVLM 仅对响应文本 token(response text token)进行腐蚀,构建出噪声流(noisy stream) ,并将其与干净流(clean stream)拼接为:
请注意,这里的噪声流仅包含文本位置,不重复视觉 token。这一点对应后文将提到的“视觉高效拼接”(vision-efficient concatenation)。
图 3:Fast-dVLM的训练架构与注意力掩码(块大小)。该图展示双流(噪声+干净)训练架构与三类注意力掩码规则,视觉token仅保留在干净流,噪声流仅含文本token。实现块内双向并行去噪,让噪声token关注前文干净视觉与文本信息,保持干净流因果注意力。此设计无精度损失,却降低15.0%峰值内存、减少14.2%训练时间,还保留AR解码能力支撑自推测验证,是多模态块扩散的关键架构创新。
4.1 因果上下文注意力:保留自回归模型的因果结构
训练过程中的注意力掩码(attention mask)包含三个组成部分。
- : 噪声 token(noisy tokens)在同一块(block)内部进行双向注意力计算,用于实现并行去噪。
- : 噪声 token 可以关注到其前面的所有干净块(clean blocks),其中包含视觉 token。
- : 干净 token(clean tokens)继续使用 token 级别的因果注意力(causal attention)。
与某些块扩散(block diffusion)方法不同,Fast-dVLM 并未在所有前置上下文上使用块级别的上下文注意力(block-level context attention),而是保留了因果注意力(causal attention)。这对于达成两个目标都至关重要:一是保护自回归视觉语言模型(AR VLM)预训练所习得的顺序推理表征;二是让同一个模型仍能执行自回归解码(AR decoding),用于自推测验证(self-speculative verification)。
消融实验结果也印证了这一点。若移除因果上下文,改为对前置上下文使用块级别的双向注意力,会导致平均分数从 57.3 骤降至 44.4,降幅高达 22.5%。
在 MMMU-Pro-V 基准测试上,性能相对下降了 58.9%;在 SeedBench2+ 上则下降了 39.5%。这充分说明,因果上下文并非可有可无的兼容项,而是维持模型推理能力的核心要素。
4.2 块大小退火:避免模型一开始就处理大块噪声
Fast-dVLM 采用了一种块大小课程学习(block size curriculum)策略。候选的块大小为:
当训练进度为 时,当前的块大小计算如下:
其直觉是,让模型先学习小块、细粒度的去噪任务,再逐步过渡到处理更长跨度(span)的腐蚀。目标块大小被设定为 。
消融实验表明,如果直接使用目标块大小 32 进行训练,而不采用退火策略,平均分数会下降 4.4%,其中在 MMMU-Pro-V 上的降幅高达 32.5%。长推理任务对稳定的去噪过程尤为敏感,因此直接使用大块训练会显著损害思维链(chain-of-thought)的生成质量。
4.3 自动截断掩码:防止短回答跨越至下一轮提示
在多轮视觉语言模型(VLM)数据中,回答的长度往往不是块大小的整数倍。如果不对最后一个块进行截断,它就可能跨越响应(response)的边界,侵入下一轮的提示(prompt)中。由于块内的噪声 token 可以通过 双向注意力机制相互“看见”,这会造成未来提示信息泄露(future prompt leakage)的问题。
Fast-dVLM 的自动截断注意力掩码(auto-truncation attention mask)会在每个响应的最后一个块处,自动将其截断至响应边界,从而防止跨轮次的信息泄漏。移除该机制后,平均分数下降了 3.7%,其中 MMMU 分数下降了 14.4%。这表明,短答案和多轮边界问题并非数据清洗中的小细节,而是扩散视觉语言模型训练中必须显式处理的注意力语义问题。
4.4 视觉高效拼接:避免复制视觉 token
视觉嵌入(visual embedding)在训练过程中不会被腐蚀,因此噪声流和干净流中的视觉信息本质上是相同的。Fast-dVLM 将视觉 token 仅放置在干净流中,让噪声文本 token 通过 来访问视觉上下文。
论文报告,在 Qwen2.5-VL-3B 模型、H100 GPU、上下文长度(context length)为 2048 的条件下,这个无精度损失的设计将峰值内存(peak memory)降低了 15.0%,训练时间减少了 14.2%。 这不是一项改变模型能力的技巧,而是对多模态扩散双流结构进行的一次必要的工程修剪。
4.5 训练目标:扩散损失与因果语言模型损失的共同约束
Fast-dVLM 同时训练噪声流的扩散分支(diffusion branch)和干净流的因果语言模型分支(causal LM branch)。设语言模型头为 ,噪声流和干净流的隐藏状态(hidden states)分别为 和 ,则总损失函数定义为:
论文默认设定 。这个目标函数具有很强的代表性:一方面让模型学会在块内进行并行去噪,另一方面保留了自回归生成能力。后者直接服务于后续的自推测解码(self-speculative decoding)中的验证步骤(verify step)。
五、推理机制:从多模态扩散模型到自推测块解码
Fast-dVLM 的推理加速并非源于单一因素,而是由块扩散、多 token 接受、系统服务(serving)和量化等多个层面叠加而成。
5.1 因果上下文解码:每个块先由一个自回归 token 启动
Fast-dVLM 的块解码过程遵循与键值缓存(KV-cache)兼容的顺序。每个块开始时,模型首先通过一次自回归步骤(AR step)从缓存的因果上下文中生成第一个 token;剩余的 个位置则填入 [MASK] 标记,再通过迭代去噪生成。
这种设计确保了训练时的因果上下文注意力与推理时的上下文对齐,同时也使得已完成块的键值缓存能够被后续块继续复用。
5.2 多模态扩散模型解码的阈值权衡
在多模态扩散模型(MDM)解码过程中,置信度阈值 控制着每一轮可以揭示多少个 token。阈值越高,策略越保守,生成质量更稳定,但并行度较低;阈值越低,策略越激进,吞吐量更高,但生成质量会有所下降。
论文在 MMMU-Pro 思维链(CoT)任务上对 进行了扫描测试:
- 当 时,每步仅揭示一个 token,准确率为 21.6。
- 当 时,吞吐量接近翻倍,达到 1.95 tokens/步,同时准确率仍维持在 21.4。
- 当 时,吞吐量提升至 2.90 tokens/步,但准确率下降到了 18.5。
因此,论文默认采用 作为速度与质量之间的平衡点。
图 5:阈值对 MMMU-Pro CoT 精度(左轴)与每步生成 token 数(右轴)的影响。该阈值在 MDM 解码过程中调控着并行度与生成质量之间的平衡。当阈值为 时,每一步仅解码出 1 个 token,对应的精度为 21.6;当阈值调整为 时,每步生成的 token 数几乎翻倍,而精度依然维持在 21.4;当阈值设为 时,并行度达到最高,但精度却下降至 18.5。最终,论文选定 作为默认参数,实现了推理速度与生成精度的最优组合,这也证实了在块扩散 VLM 中采用置信度感知的并行解码策略是行之有效的。
上图清晰展示了阈值 如何影响 MMMU-Pro CoT 的准确率与每步 token 数(tokens per step)——这构成了 MDM 解码的核心权衡:降低阈值虽然能增加并行生成的 token 数量,但不可避免地会降低生成质量。
5.3 自推测块解码:同一模型身兼草稿与验证两职
Fast-dVLM 采用的自推测解码(self-speculative decoding)机制,利用同一套模型权重来支持两种不同的注意力模式:
- 扩散模式(diffusion mode):在块内使用双向注意力,一次性草拟(draft)出多个 token。
- 因果模式(causal mode):采用自回归注意力,逐个 token 验证草拟结果是否与自回归分布(AR distribution)保持一致。
论文提出了两种具体的实现变体。
线性推测解码(Linear speculative decoding)在每个块中需要进行两次前向传播:
- 草拟步骤(draft step):在序列末尾追加 个掩码 token,利用双向注意力并行预测整个块的内容。
- 验证步骤(verify step):使用因果注意力重新评估已填充好的块,从左到右逐一比对草拟 token 与自回归预测(AR prediction)的结果,接受最长的匹配前缀,并据此裁剪 KV 缓存。
该方案在每个块上需要 2 次函数评估(NFE),其理论最高加速比约为 。
二次推测解码(Quadratic speculative decoding)则将验证步骤与下一个块的生成提案合并到一次前向传播中。 它将 个草拟 token 展开成 组,每组包含 个 token,总的输入长度变为:
虽然它的 NFE 更少,但其计算复杂度为 ,并且其注意力掩码(attention mask)并非标准形式,导致当前的 kernel 优化不够充分。因此,在实验中,二次变体的 Tokens/NFE 指标更高,但实际的时钟吞吐量(wall-clock TPS)反而低于线性变体。
图 6:不同块大小下推测解码的吞吐量对比。此图对比了线性与二次推测解码的 Tokens/NFE 和 TPS 指标。Tokens/NFE 随着块大小的增加而单调提升;线性解码在块大小为 16 时达到 TPS 峰值 112.7,而二次解码由于更高的计算开销,其实际时钟速度始终更低。线性方案更适合处理大块大小,二次方案则仅适用于中等块大小,这为推理部署时的块大小选择提供了明确的工程指导。
从上图可以看出:Tokens/NFE 随块大小增加而提升,但实际的时钟 TPS 在块大小约为 16 时达到峰值;二次方案的理论 NFE 优势被其 的输入成本所抵消。
最终,论文默认采用线性变体。它在块大小为 16 时达到了 112.7 TPS,相比自回归基线(AR baseline)的 56.7 TPS,实现了 1.98 倍的时钟加速,同时 MMMU-Pro-V 的分数也从 MDM 模式的 21.4 恢复到了 24.6,更接近自回归基线的 26.3 分。
5.4 SGLang 与 FP8:系统优化将算法收益兑现为端到端性能
论文并未止步于算法层面,而是将 Fast-dVLM 集成到了 SGLang 框架中。关键的改动在于扩展了调度器(scheduler),使其能够支持双向草稿注意力(bidirectional-draft attention)与因果验证注意力(causal-verify attention)的交替执行,并共享同一份分页 KV 缓存 。这_使得 Fast-dVLM 能够利用 SGLang 的优化内核(optimized kernels)和 CUDA 图(CUDA graph)。_
推理加速的路径是逐层叠加的:
表 4 展示了在 MMMU-Pro-V 上进行逐层优化的加速效果:仅使用 MDM 解码带来 1.45 倍加速,叠加推测解码后达到 1.98 倍,集成 SGLang 后提升至 5.63 倍,再结合 FP8 量化,最终实现了 6.18 倍的加速。所有测试均在单块 H100 GPU、单批次下完成,这贴合了物理 AI 单请求部署的真实场景。结论是,系统级优化(SGLang)、量化技术与算法级优化(推测解码)协同作用,能够最大化块扩散 VLM 的推理加速收益。
这里需要特别指出:6.18 倍的加速并非单纯来自扩散解码本身,而是“扩散解码 + 自推测解码 + 服务系统 + FP8 量化”的端到端组合结果。论文在摘要(abstract)中提到了超过 6 倍(over 6×)的加速,而图 1 和表 4 给出的具体数值是 6.18 倍。
Fast-dVLM 真正的系统意义在于:它没有仅仅追求 Tokens/NFE 这类算法指标,而是将 SGLang 和 FP8 纳入优化路径,证明了块扩散 VLM 能够转化为真实的时钟吞吐量收益。
六、实验结果:质量是否真的保住了
Fast-dVLM 的实验结论可以概括为:在短答案任务上基本保住了质量,在长链式推理上仍有差距,但自推测解码能显著缩小这一差距。
论文以 Qwen2.5-VL-3B 作为自回归基线,在 11 个 VLM 基准测试上进行了评估。短答案任务包括 AI2D、ChartQA、DocVQA、GQA、MMBench、MMMU、POPE、RealWorldQA、SEEDBench2+、TextVQA;长答案任务为 MMMU-Pro-V。
6.1 短答案任务:平均质量与自回归基线持平
Qwen2.5-VL-3B 自回归基线在短答案任务上的平均得分为 74.0。Fast-dVLM 的结果如下:
- MDM 解码:平均分 73.3,Tokens/NFE 为 1.95 倍。
- 推测解码:平均分 74.0,Tokens/NFE 为 2.63 倍。
也就是说,在短答案任务上,Fast-dVLM 的推测解码在平均质量上精确匹配了自回归基线,同时每次前向传播平均能生成更多 token。它还在 GQA、POPE、RealWorldQA 等任务上达到或超过了基线水平。 论文的解释是,块内的双向上下文可能对整体视觉推理有所帮助。
与其他扩散 VLM 相比,Fast-dVLM 在 11 个短答案基准测试中有 8 个达到了最佳扩散模型的结果,整体性能显著优于 LaViDa、Dimple、LLaDA-V 等已有的扩散 VLM 基线。
6.2 长答案任务:MMMU-Pro-V 仍是难点
MMMU-Pro-V 要求进行多步思维链推理,这是对块扩散生成最不友好的场景之一,因为它更依赖于长距离的顺序一致性。
论文给出的结果如下:
- 自回归基线:26.3。
- Fast-dVLM MDM:21.4,落后 4.9 分。
- Fast-dVLM 推测解码:24.6,仅落后 1.7 分。
这表明,普通的 MDM 并行去噪在长推理任务上仍存在结构性劣势,但自推测验证(self-speculative verify)能显著修正生成轨迹,将质量拉回到接近自回归的水平。论文也承认,剩余的差距可能需要通过更大规模的训练数据和更长的退火调度(annealing schedule)来进一步缩小。
6.3 消融实验:哪些组件最关键
论文在 ShareGPT-4V 数据上进行了训练配方的消融实验,结果非常清晰。
- 移除因果上下文(causal context):平均分从 57.3 降至 44.4,下降了 22.5%,这是最大的性能损失。
- 移除块大小退火(block-size annealing):平均分降至 54.8,下降了 4.4%,其中 MMMU-Pro-V 的分数下降了 32.5%。
- 移除自动截断(auto-truncation):平均分降至 55.2,下降了 3.7%,其中 MMMU 的分数下降了 14.4%。
这说明 Fast-dVLM 的成功并非仅仅依赖“直接转换”这一步骤。虽然直接转换为模型提供了强大的初始化能力,但真正让模型稳定运行的关键条件,是因果上下文(causal context)、退火策略(annealing)以及轮次感知截断(turn-aware truncation)这三项机制。
七、Fast-dVLM 核心技术链条的串联
Fast-dVLM 的技术链条可以概括为:利用直接转换保持多模态对齐,通过块扩散释放并行计算能力,借助因果上下文保留自回归能力,依靠自投机解码提升生成质量,最终结合 SGLang 与 FP8 量化,将吞吐量优势落实到系统性能指标上。
图 1:Fast-dVLM 概览。该图从速度-精度权衡、多基准测试、端到端推理加速三个维度展示了 Fast-dVLM 的核心效果。在速度-精度维度上,Fast-dVLM 在 MMMU-Pro-V 任务中的精度与自回归(AR)基线相当,并实现了显著的推理加速;在多基准测试中,其基于 Qwen2.5-VL-3B 基座,在各多模态任务上几乎实现了无损精度;在推理加速方面,通过结合 SGLang 与 FP8 量化,最终实现了超过 6 倍的端到端速度提升。这验证了块扩散架构能够突破自回归解码的吞吐量瓶颈,完美适配机器人、自动驾驶等单批次边缘物理 AI 部署场景。图 3:Fast-dVLM 的训练架构与注意力掩码(块大小)。该图最重要的信息是,视觉 token 仅在干净流(clean stream)中出现,噪声 token(noisy token)通过干净上下文(clean context)访问视觉信息;同时,干净流保持了因果注意力机制。图 5:阈值对 MMMU-Pro CoT 精度(左轴)和每步 token 数(右轴)的影响。该阈值调控 MDM 解码的并行度与精度之间的平衡。当阈值设为 时,每步仅生成 1 个 token,精度为 21.6;当阈值设为 时,每步 token 数接近翻倍,精度仍维持在 21.4;当阈值设为 时,并行度达到最大化,但精度下降至 18.5。论文选定 为默认参数,实现了速度与精度的最优配比,验证了置信度感知并行解码在块扩散 VLM 中的实用性。
上图是 MDM 解码的阈值曲线。论文采用的默认点为 ,因为它能在几乎不损害准确率的前提下,将每步生成的 token 数(tokens/step)提升至 1.95。
Fast-dVLM 的核心公式并不复杂,但每个公式都对应着一个系统设计。
自回归分解公式说明了传统生成方式为何是串行的:
Block-size annealing 公式解释了模型如何从小块逐步过渡到目标块大小:
双分支训练目标公式揭示了模型既能进行扩散去噪,又能保留自回归验证能力的原因:
线性自投机解码的理论上限阐明了块大小与加速比之间的关系:
二次自投机解码的成本则解释了为何更高的 Tokens/NFE 并不必然转化为更快的时钟时间吞吐量(wall-clock TPS):
这些公式共同指向一个结论:Fast-dVLM 的核心并非单纯追求每次前向传播预测更多的 token,而是在模型质量、KV 缓存、注意力掩码、服务内核和量化效率之间寻求精妙的平衡。
八、相关工作:Fast-dVLM 的技术渊源
Fast-dVLM 并非首个扩散 VLM 工作,但其定位更偏向系统化:它既要实现块级 KV 缓存,又要保证 VLM 的生成质量,还要追求服务级的吞吐量。
8.1 离散扩散语言模型
离散扩散 LLM 已经从早期的连续潜在空间形式,发展到了掩码扩散目标。LLaDA、Dream 等模型已经证明,扩散语言模型可以扩展到 7B-8B 参数规模,并接近自回归基线的性能。 Fast-dLLM 和 Fast-dLLM v2 进一步将块级缓存和自回归到扩散的适配方法,提炼成了更高效的配方。
Fast-dVLM 继承的正是这条技术路线:在块与块之间保持顺序关系,在块内部进行并行去噪,以此突破全序列双向扩散无法进行增量缓存的限制。
8.2 扩散视觉语言模型
LLaDA-V、LaViDa、MMaDA、Dimple 等工作都在尝试将离散扩散引入多模态理解领域。但论文指出,这些方法大多依赖于全序列扩散,缺乏块结构,因此难以对已生成的响应块进行增量 KV 缓存,也没有充分处理多轮对话中的轮次感知注意力掩码问题。
Fast-dVLM 的差异在于,它明确地将 VLM 的扩散化与系统服务兼容性绑定在一起:如果没有与 KV 缓存兼容的块扩散结构,就很难在真实的推理场景中兑现速度优势。
8.3 投机解码与扩散投机解码
经典的投机解码依赖于草稿模型和验证模型。 扩散 LLM 的特殊之处在于,它天生具备多 token 预测能力,因此可以让同一个模型在扩散模式下充当草稿模型,再在因果模式下充当验证模型。 Fast-dVLM 将这种自投机机制引入了多模态扩散 VLM,是论文声称的首个将块级自投机集成到多模态扩散 VLM 中,并附带系统服务支持的工作。
这一点至关重要:如果没有因果分支和因果注意力的保留,模型就很难同时扮演草稿模型和验证模型的双重角色。因此,训练阶段的自回归损失,并非是为了附带保留一个旧功能,而是为推理阶段的自投机路径预先埋下的接口。
九、结论与展望
Fast-dVLM 表明,VLM 的推理加速不能仅仅依赖于更快的核函数,也不能只依靠更小的模型;生成范式本身也值得被重新设计。
9.1 结论总结
Fast-dVLM 的贡献可以归纳为以下四点。
- 它提出了一条从完整的自回归 VLM 直接转换为块扩散 VLM 的训练路线,并通过对比实验证明,这条直接路径比两阶段路径更为高效。
- 它将因果上下文注意力、自动截断掩码、块大小退火、视觉高效拼接等机制组合成一套适用于 VLM 的扩散训练方案。
- 它通过自投机块解码,让同一个模型在扩散模式下进行草稿生成,在因果模式下进行验证,显著改善了长文本输出的质量与吞吐量。
- 它将模型接入 SGLang 并配合 FP8 量化,使得算法层面的 Tokens/NFE 优势转化为 6.18 倍的端到端时钟时间加速。
在短答案任务上,Fast-dVLM 投机解码的平均分达到 74.0,与 Qwen2.5-VL-3B 自回归基线持平; 在 MMMU-Pro-V 长推理任务上,它仍落后 1.7 分,但相比于 MDM 的 4.9 分差距,已经有了显著的缩小。 这是一个现实且可信的结果:并行生成确实会带来一定的质量代价,但通过自投机验证可以显著缓解这一问题。
9.2 进阶分析
这篇论文最出色之处,在于它没有将“扩散 VLM”停留在概念层面,而是完整地打通了训练、解码、系统和量化的整个链条。不过,它也存在几个明确的边界条件。
首先,6.18× 这一加速比是在 MMMU-Pro-V 基准测试、单张 H100 GPU、batch size 为 1、结合 SGLang 推理框架与 FP8 量化后的端到端结果,不应被泛化为所有 VLM 任务上的固定倍数。在短输出任务中,块扩散的优势可能不如长输出任务那样显著。
其次,长链式推理仍然是块扩散(block diffusion)面临的难点。Fast-dVLM speculative 在 MMMU-Pro-V 上的表现仍低于自回归基线(AR baseline),这说明对于高度顺序依赖的推理任务,自回归验证(AR verification)只能部分补偿并行去噪(parallel denoising)带来的结构差异。
第三,论文的验证主要基于 Qwen2.5-VL-3B 这一规模。直接转换的配方是否能够同样稳定地扩展到更大的 VLM 模型,例如 7B、14B 或更强的推理模型,还需后续实证研究。
第四,SGLang 对该范式的支持是一项重要的工程贡献,但也意味着未来不同的服务后端(serving backend)、注意力内核(attention kernel)以及硬件平台,将对最终加速比产生显著影响。Fast-dVLM 的算法优势需要系统栈的协同配合才能完全释放。
Fast-dVLM 并非“扩散模型必然取代自回归”的证据,而是证明了一条更具体的路径:在单请求、长输出、物理 AI 式的 VLM 推理中,块扩散结合自投机解码可以成为一种比纯自回归更高效的生成范式。
9.3 未来工作
基于原文结果,未来值得继续推进的方向至少有五个。
- 扩展模型规模。验证直接转换的 recipe 在更大 VLM 上是否仍然保持训练高效性,尤其是针对强推理模型和更长上下文模型。
- 改进长链式推理。针对 MMMU-Pro-V 这类任务,探索更长的退火(annealing)策略、更高质量的思维链(CoT)数据、更强的验证器(verifier),或混合自回归/扩散(AR/diffusion)策略。
- 优化二次投机解码内核(quadratic speculation kernel)。论文显示二次方案的 Tokens/NFE 更高,但每秒 Token 数(TPS)更低,这说明它需要专门的注意力内核才能兑现其理论优势。
- 推广到更多物理 AI 场景。论文附录给出了自动驾驶和机器人案例,但真正部署仍需研究延迟抖动、流式输入、多帧视觉上下文以及安全约束等问题。
- 联合模型压缩与扩散解码。FP8 量化已带来系统收益,未来还可结合稀疏化、低秩适配(LoRA)、视觉 token 压缩以及动态 block size 策略。
最终来看,Fast-dVLM 的意义不只是“又一个 VLM 加速方法”。它更像一个信号:当多模态模型进入物理世界,逐 token 自回归不再是唯一的默认答案。下一阶段的 VLM 推理系统,很可能将在自回归、扩散、投机解码和服务运行时(serving runtime)之间寻找新的组合形态。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34465

