阿里千问突破大模型强化学习稳定性难题：从序列级奖励到token级优化的理论重构与实践验证

2025年12月7日下午12:20 • AI产业动态 • 阅读 100

在人工智能领域，大语言模型（LLM）的强化学习（RL）训练已成为提升模型复杂推理与问题解决能力的关键技术路径。然而，当前主流RL方法普遍面临一个根本性矛盾：奖励信号通常基于完整生成序列（序列级）进行评估，而优化过程却在单个token级别进行。这种“奖励-优化”层级的不匹配不仅引发了理论上的健全性质疑，更在实际训练中导致稳定性问题，特别是在混合专家（MoE）等复杂架构中表现尤为突出。阿里千问团队的最新研究《Stabilizing Reinforcement Learning with LLMs: Formulation and Practices》通过重构RL公式化方法，为这一核心难题提供了系统性解决方案。

研究团队首先深入剖析了传统RL方法的内在局限性。在序列级奖励设置下，模型对整个响应y获得标量奖励R(x,y)，而主流算法如REINFORCE和GRPO却采用token级优化目标。这种不匹配在理论上缺乏严谨推导，在实践中容易导致训练波动。团队通过数学形式化证明，直接优化期望序列级奖励J(θ)=E_{x∼D,y∼π_θ(·|x)}[R(x,y)]极其困难，因为模型生成通常在推理引擎（如vLLM）中完成，而非训练引擎。为此，团队引入重要性采样（IS）进行等价变换，将优化目标转化为可计算形式。

核心突破在于团队提出的替代token级优化目标L(θ)=E_{x∼D,y∼μ_{θ_old}(·|x)}[∑_{t=1}^{|y|}w_t·log π_θ(y_t|x,y_{<t})]，其梯度形式∇_θL(θ)=E_{x∼D,y∼μ_{θ_old}(·|x)}[∑_{t=1}^{|y|}w_t·∇_θlog π_θ(y_t|x,y_{<t})]恰好对应带token级重要性采样权重的REINFORCE算法。团队证明，这一token级目标实际上是序列级目标的一阶近似，即用更易优化的替代目标逼近真实优化目标。这一理论重构不仅解释了现有RL技巧的有效性，更为稳定训练提供了数学基础。

一阶近似成立的关键条件在于目标策略π_θ与rollout策略μ_{θ_old}必须足够接近。团队通过重要性采样权重w_t=π_θ(y_t|x,y_{<t})/μ_{θ_old}(y_t|x,y_{<t})的重新表述，直观展示了策略接近度对近似有效性的影响。当两者差异过大时，token级替代目标将失效，导致训练不稳定。这一洞察为理解RL训练动态提供了全新视角。

在MoE模型场景中，问题进一步复杂化。MoE的动态专家路由机制与训练-推理差异、策略陈旧紧密耦合，严重破坏token级重要性采样比的有效性。团队推导出MoE模型的token级IS权重w_t^{MoE}=[π_θ(y_t|x,y_{<t})/μ_{θ_old}(y_t|x,y_{<t})]·[π_θ^{route}(r_t|x,y_{<t})/μ_{θ_old}^{route}(r_t|x,y_{<t})]，其中路由概率的引入显著增加了不稳定性风险。

为解决MoE特有挑战，团队提出Routing Replay方法，通过固定专家路由使一阶近似重新成立。该方法包含两种实现：Vanilla Routing Replay（R2）在梯度更新阶段复现rollout策略的路由选择，减轻专家路由对策略陈旧的影响；Rollout Routing Replay（R3）在训练引擎中统一复现推理引擎的路由选择，同时降低训练-推理差异和策略陈旧影响。虽然可能引入偏差，但实验证明其显著提升训练稳定性。

为验证理论洞察，团队使用30B参数MoE模型进行大规模实验，累计消耗数十万GPU小时。主要结论包括：在on-policy训练中，带重要性采样校正的基本策略梯度方法实现最高稳定性；引入off-policy更新加速收敛时，必须同时使用Clipping与Routing Replay缓解策略陈旧导致的不稳定性；训练稳定后，不同冷启动方式的模型性能趋于一致，表明RL方法本身比冷启动细节更关键。

这项研究的理论贡献与实践价值体现在多个层面。首先，它首次系统建立了序列级奖励与token级优化之间的数学联系，为RL训练提供了严谨理论基础。其次，针对MoE架构的特殊挑战，提出的Routing Replay方法具有重要工程指导意义。最后，实验揭示的冷启动差异消失现象，为未来研究重心调整提供了实证依据。