突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

扩散大语言模型(Diffusion Large Language Models)作为生成式人工智能领域的新兴范式,在2025年迎来了关键性突破。2月,Inception Labs推出首个商业级扩散大语言模型Mercury;同期,中国人民大学开源了8B参数的LLaDA模型;5月,Gemini Diffusion的发布进一步印证了这一技术路线的潜力。这些进展表明,扩散大语言模型正成为继自回归模型之后最具竞争力的基础架构候选者。然而,该技术路径仍面临两大核心挑战:解码策略的效率瓶颈和强化学习算法的适配性问题。

近期,复旦大学、上海人工智能实验室、上海交通大学联合研究团队在论文《Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step》中提出了一套创新解决方案。该研究针对掩码扩散大语言模型(Masked Diffusion Large Language Model,MDLM)设计了高效解码策略与强化学习训练的组合框架,显著提升了模型的推理性能与效率,为扩散大语言模型的实用化部署开辟了新的技术路径。

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

**技术背景与问题诊断**

掩码扩散大语言模型如LLaDA已展现出与自回归模型相媲美的生成能力,并具备并行解码、灵活生成顺序、潜在少步推理等独特优势。然而在实际应用中,完全扩散式解码策略并未成为主流选择,业界普遍采用分块解码作为替代方案。这一现象背后的根本原因在于:完全扩散式解码的性能显著劣于分块解码,形成了明显的性能差距。

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

研究团队通过深入分析发现,这一性能差距源于MDLM全扩散式解码的三个关键特征:首先,解码过程中token置信度呈现从平缓到陡升的非线性变化趋势;其次, token的置信度在整个解码过程中持续高于其他非 token;第三,这两个特征共同导致模型在解码早期阶段有极高概率生成 token,使模型陷入“EOS陷阱”——过早终止生成过程。相比之下,分块解码由于块结构的限制,能够有效规避这一陷阱。

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

在强化学习算法适配方面,研究团队识别出另一个关键挑战:将为自回归模型设计的强化学习算法直接迁移到MDLM时,会出现rollout轨迹与优化轨迹不一致的问题。自回归模型采用因果掩码机制,确保完整轨迹计算得到的token概率与rollout过程保持一致;而MDLM采用双向注意力机制,导致两种轨迹计算得到的概率分布存在偏差。现有解决方案如prompt masking近似优化或从完全掩码响应进行一步去噪优化,均无法彻底解决轨迹不一致问题,可能引入显著的优化误差。

基于以上分析,研究团队将问题归纳为三个核心挑战:1)解码陷阱——全扩散解码易在早期步骤中过早生成过多 token;2)等间隔解码步长非最优——根据置信度变化曲线,前期需要谨慎解码,后期可大胆解码;3)rollout轨迹与优化轨迹不一致——直接影响强化学习算法的优化效果。

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

**创新方法论:三大核心技术突破**

针对上述挑战,研究团队提出了三项核心技术贡献:

1. **EOS早期拒绝机制**:在解码早期主动抑制 token的置信度,避免生成过早终止;在解码后期逐步恢复置信度,确保句子正常结束。这一机制显著提升了全扩散式解码性能,在多项任务上超越了半自回归解码。

2. **幂次递增解码步长调度器**:基于“早期置信度低、后期急剧上升”的观察,设计非均匀解码策略——前期采用小步长谨慎解码,后期采用大步长快速解码。该调度器将推理步数从O(L)降至O(logL),实现了推理过程的大幅加速。

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

3. **一致性轨迹分组策略优化**:提出CJ-GRPO算法,在rollout过程中存储每一步解码的中间状态,逐步优化相邻状态之间的转变。这一方法有效缓解了跳步优化带来的误差,提升了训练稳定性与效果。结合递增步长调度器后,既能保证轨迹一致性,又能大幅缩减中间状态存储开销。

研究团队将EOS早期拒绝机制、递增步长调度器和CJ-GRPO算法有机结合,实现了“一石三鸟”的效果:削减训练时的存储开销,使模型在少解码步数推理下达到甚至超越基线方法多解码步数时的性能,真正释放了扩散语言模型的推理速度潜力。训练时的解码时间/空间复杂度从O(L)降至O(logL),大幅加速了训练过程。

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

**实验验证与性能分析**

在数学推理(GSM8K、MATH500)和规划任务(Countdown、Sudoku)上,研究团队使用LLaDA-8B-Instruct模型进行了全面实验。结果显示:一致性轨迹优化在数学和规划任务上实现了对基线的全面超越;CJ-GRPO结合半自回归解码在数学类任务上表现突出;CJ-GRPO结合EOSER和ASS在规划类任务上表现优异,部分基准测试的性能提升高达2-4倍。

实验还揭示了一个重要发现:规划任务更适合并行推理,而数学问题更适合顺序推理。这一发现为不同任务类型选择最优解码策略提供了理论依据。

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式

在仅使用log(L)步数的情况下,EOSER+ASS组合的性能仍优于分块解码和全扩散式解码策略。一致性轨迹优化结合递增步长调度器和EOSER解码策略,在少步数推理场景下保持了强大的竞争力,真正实现了“又快又好”的生成效果。

**技术意义与行业影响**

本研究深入探索了扩散语言模型的全扩散式解码策略,通过更一致的轨迹优化和更少的解码步数,使模型能够更快、更好地完成复杂推理任务。这一突破性进展将推动扩散语言模型在三个关键方向的发展:全扩散式解码的实用化、少步数解码的效率优化、强化学习算法的专门化设计。

展望未来,扩散大语言模型的并行推理能力与顺序推理能力的平衡优化将成为重要研究方向。随着解码效率的持续提升和强化学习算法的不断完善,扩散大语言模型有望在实时交互、大规模内容生成、复杂问题求解等场景中发挥更大作用,为下一代人工智能系统提供更强大的基础架构支持。

— 图片补充 —

突破扩散大语言模型解码瓶颈:复旦大学团队提出一致性轨迹强化学习新范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8187

(0)
上一篇 2025年11月5日 上午11:55
下一篇 2025年11月5日 下午12:00

相关推荐

  • ATEC2025线下挑战赛:全户外自主机器人极限测试,揭示具身智能四大技术瓶颈

    近日,第五届ATEC科技精英赛线下赛在香港中文大学圆满落幕。作为全球首个聚焦实景极端环境的人工智能与机器人赛事,本届比赛首次将机器人从实验室完全迁移至户外复杂场景,在无遥操作干预的前提下,要求机器人自主完成一系列高难度任务。这不仅是对当前机器人技术极限的公开检验,更是具身智能发展进程中的一次里程碑式事件。 比赛设置了垃圾分拣、自主浇花、定向越野和吊桥穿越四大…

    2025年12月8日
    44000
  • 英伟达2025挖人战略:从巨头挖高管,用华人团队重塑增长曲线

    henry 发自 凹非寺 量子位 | 公众号 QbitAI 已经是全球市值第一了,还怎么继续往上走? 英伟达给出的答案很简单:挖人,挖更多的人。 过去的2025年,黄仁勋一边扩编管理层,一边掏钱收团队——从挖角市场、政策、人力资源高管,到收购初创公司“打包”引入技术负责人,一套典型的“黄氏挖人+黄氏收购”正在成型。 不止芯片,用挖人重塑“第二增长曲线” 20…

    2026年1月18日
    48000
  • 全球AI格局重构:中国开源模型填补技术真空,以极致效率重塑产业生态

    在全球人工智能发展的关键节点,2024年见证了行业格局的深刻变革。两大传统技术灯塔——开源领域的Meta Llama系列与闭源领域的OpenAI——同时遭遇严峻挑战,暴露出西方AI发展模式在可持续性与可靠性方面的结构性缺陷。这一技术真空的浮现,恰为中国AI力量的崛起提供了历史性机遇,以DeepSeek、MiniMax为代表的国产模型正通过技术创新与商业模式的…

    2025年11月12日
    40800
  • AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

    12月15日 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务…

    2025年12月22日
    44500
  • Step-Audio-EditX:音频编辑迈入自然语言交互时代,技术门槛与创意门槛的博弈

    音频编辑长期以来被视为一项专业且复杂的技能,传统专业软件如Adobe Audition、Pro Tools等不仅操作界面繁杂,学习曲线陡峭,更要求用户具备声学原理、信号处理等专业知识。对于普通内容创作者、播客制作者或短视频爱好者而言,制作一段简单的音频内容往往需要投入大量时间学习软件操作,甚至依赖外包服务。这种高门槛严重制约了音频内容的创作效率与普及度。 近…

    2025年11月9日
    44000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注