突破扩散大语言模型解码瓶颈：复旦大学团队提出一致性轨迹强化学习新范式

扩散大语言模型（Diffusion Large Language Models）作为生成式人工智能领域的新兴范式，在2025年迎来了关键性突破。2月，Inception Labs推出首个商业级扩散大语言模型Mercury；同期，中国人民大学开源了8B参数的LLaDA模型；5月，Gemini Diffusion的发布进一步印证了这一技术路线的潜力。这些进展表明，扩散大语言模型正成为继自回归模型之后最具竞争力的基础架构候选者。然而，该技术路径仍面临两大核心挑战：解码策略的效率瓶颈和强化学习算法的适配性问题。

近期，复旦大学、上海人工智能实验室、上海交通大学联合研究团队在论文《Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step》中提出了一套创新解决方案。该研究针对掩码扩散大语言模型（Masked Diffusion Large Language Model，MDLM）设计了高效解码策略与强化学习训练的组合框架，显著提升了模型的推理性能与效率，为扩散大语言模型的实用化部署开辟了新的技术路径。

**技术背景与问题诊断**

掩码扩散大语言模型如LLaDA已展现出与自回归模型相媲美的生成能力，并具备并行解码、灵活生成顺序、潜在少步推理等独特优势。然而在实际应用中，完全扩散式解码策略并未成为主流选择，业界普遍采用分块解码作为替代方案。这一现象背后的根本原因在于：完全扩散式解码的性能显著劣于分块解码，形成了明显的性能差距。

研究团队通过深入分析发现，这一性能差距源于MDLM全扩散式解码的三个关键特征：首先，解码过程中token置信度呈现从平缓到陡升的非线性变化趋势；其次， token的置信度在整个解码过程中持续高于其他非 token；第三，这两个特征共同导致模型在解码早期阶段有极高概率生成 token，使模型陷入“EOS陷阱”——过早终止生成过程。相比之下，分块解码由于块结构的限制，能够有效规避这一陷阱。

在强化学习算法适配方面，研究团队识别出另一个关键挑战：将为自回归模型设计的强化学习算法直接迁移到MDLM时，会出现rollout轨迹与优化轨迹不一致的问题。自回归模型采用因果掩码机制，确保完整轨迹计算得到的token概率与rollout过程保持一致；而MDLM采用双向注意力机制，导致两种轨迹计算得到的概率分布存在偏差。现有解决方案如prompt masking近似优化或从完全掩码响应进行一步去噪优化，均无法彻底解决轨迹不一致问题，可能引入显著的优化误差。

基于以上分析，研究团队将问题归纳为三个核心挑战：1）解码陷阱——全扩散解码易在早期步骤中过早生成过多 token；2）等间隔解码步长非最优——根据置信度变化曲线，前期需要谨慎解码，后期可大胆解码；3）rollout轨迹与优化轨迹不一致——直接影响强化学习算法的优化效果。

**创新方法论：三大核心技术突破**

针对上述挑战，研究团队提出了三项核心技术贡献：

1. **EOS早期拒绝机制**：在解码早期主动抑制 token的置信度，避免生成过早终止；在解码后期逐步恢复置信度，确保句子正常结束。这一机制显著提升了全扩散式解码性能，在多项任务上超越了半自回归解码。

2. **幂次递增解码步长调度器**：基于“早期置信度低、后期急剧上升”的观察，设计非均匀解码策略——前期采用小步长谨慎解码，后期采用大步长快速解码。该调度器将推理步数从O(L)降至O(logL)，实现了推理过程的大幅加速。

3. **一致性轨迹分组策略优化**：提出CJ-GRPO算法，在rollout过程中存储每一步解码的中间状态，逐步优化相邻状态之间的转变。这一方法有效缓解了跳步优化带来的误差，提升了训练稳定性与效果。结合递增步长调度器后，既能保证轨迹一致性，又能大幅缩减中间状态存储开销。

研究团队将EOS早期拒绝机制、递增步长调度器和CJ-GRPO算法有机结合，实现了“一石三鸟”的效果：削减训练时的存储开销，使模型在少解码步数推理下达到甚至超越基线方法多解码步数时的性能，真正释放了扩散语言模型的推理速度潜力。训练时的解码时间/空间复杂度从O(L)降至O(logL)，大幅加速了训练过程。

**实验验证与性能分析**

在数学推理（GSM8K、MATH500）和规划任务（Countdown、Sudoku）上，研究团队使用LLaDA-8B-Instruct模型进行了全面实验。结果显示：一致性轨迹优化在数学和规划任务上实现了对基线的全面超越；CJ-GRPO结合半自回归解码在数学类任务上表现突出；CJ-GRPO结合EOSER和ASS在规划类任务上表现优异，部分基准测试的性能提升高达2-4倍。

实验还揭示了一个重要发现：规划任务更适合并行推理，而数学问题更适合顺序推理。这一发现为不同任务类型选择最优解码策略提供了理论依据。