在视觉生成领域,强化学习从人类反馈(RLHF)及其变体已成为提升模型与人类偏好对齐的关键技术。其中,基于梯度的奖励策略优化(GRPO)因其高效性,在图像和视频生成的流模型中展现出显著潜力,如FlowGRPO和DanceGRPO等应用,已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而,近期研究发现,GRPO在流模型训练中存在一个隐蔽却致命的问题——隐式过度优化(Implicit Over-Optimization),这导致模型在代理奖励持续提升的同时,实际生成质量和对齐度反而下降,严重制约了其应用价值。

**核心机制缺陷:比率分布偏移与裁剪失效**
GRPO的核心在于通过重要性采样比率(importance ratio)来调整策略梯度,并引入裁剪(clip)机制约束过于自信的正负样本梯度,以维持训练稳定性。然而,中山大学、快手可灵及港中文MMLab的联合研究团队通过实证分析揭示,该机制存在系统性偏差。在流模型特有的去噪扩散过程中,重要性比率分布并非理想状态:其均值长期低于1,且不同去噪步骤下的方差差异显著。


这种分布偏移源于离策略(off-policy)估计中二阶项的影响。具体而言,对数重要性比率受到二次项干扰,导致均值偏向小于1,同时方差随着去噪步骤增加而逐渐增大。




理想情况下,比率均值应接近1,以确保裁剪区间左右均衡,有效约束有害梯度。但均值偏移使得过度自信的正梯度无法被充分限制;而方差差异则导致部分步骤的裁剪机制完全失效。结果,模型在训练中极易陷入过度优化状态:代理奖励(如PickScore、文本对齐分数)持续上升,但真实图像质量、文本-提示对齐度等黄金标准(gold score)反而恶化。
此外,流模型中不同去噪步骤的梯度贡献本身就不均衡。受梯度系数影响,高噪声步骤贡献较小,低噪声步骤贡献较大,这进一步加剧了模型对特定噪声条件的偏向,削弱了生成多样性。



**创新解决方案:GRPO-Guard的双重调控架构**
针对上述问题,研究团队提出了GRPO-Guard——首个专门针对GRPO在流模型中过度优化问题的系统性解决方案。该方案在原有GRPO框架上引入两项核心改进:比率归一化(RatioNorm)与跨步梯度平衡(Cross-Step Gradient Balancing),旨在从分布校正和梯度均衡两个维度恢复训练稳定性。
**1. 比率归一化(RatioNorm)**
为解决比率分布偏移,GRPO-Guard对每个去噪步骤的重要性比率分布进行独立标准化,使其均值重新校准至接近1,方差保持一致。这一操作本质上是恢复了裁剪机制的有效性,确保正负样本梯度都能得到恰当约束,从而从根本上避免因正样本裁剪失效引发的过度优化。


**2. 跨步梯度平衡**
基于归一化后的比率,GRPO-Guard进一步引入梯度平衡机制,对各去噪步骤的梯度贡献进行加权均衡,促使策略在整个噪声时间表上均匀探索。这不仅防止了模型对单一噪声步骤的过拟合,还显著提升了训练的稳定性和生成输出的多样性。

调整前后的分布对比清晰展示了GRPO-Guard的效果:在原始FlowGRPO中,比率均值小于1,导致破坏性正样本约束失效;而在GRPO-Guard下,分布均值回归至1附近,约束机制恢复正常。


**实验验证:多场景下的显著提升**
研究团队在多种GRPO变体(FlowGRPO、DanceGRPO)、不同扩散骨干模型(SD3.5-M、FLUX1.dev)以及多样代理任务(文本渲染、GenEval、PickScore)上全面评估了GRPO-Guard。实验结果表明,该方案能显著缓解过度优化现象,同时保持与基线模型相当甚至更优的性能提升。
在代理分数与黄金分数的对比中,基线方法在训练后期普遍出现黄金分数下降,而GRPO-Guard则有效遏制了这一趋势,实现了更稳健的优化轨迹。


训练过程的可视化进一步证实了其优势:在FlowGRPO/DanceGRPO等基线算法中,图像质量随训练进行明显退化;而GRPO-Guard在训练后期仍能维持较高的生成质量。

更多样例显示,基线方法在文本响应和图像细节上呈现明显退化,而GRPO-Guard在提升目标奖励的同时,较好地保持了文本-图像对齐度和视觉保真度。


特别是在PickScore任务中,基线方法在训练后期生成的人体比例不一致、人脸多样性骤减,而GRPO-Guard显著缓解了这些问题,提升了生成结果的多样性和一致性。

**总结与展望**
GRPO-Guard作为首个针对性解决GRPO在视觉生成中过度优化问题的研究,通过比率归一化和跨步梯度平衡双重机制,有效稳定了策略更新过程,恢复了裁剪约束的效力,从而在多种模型和任务上实现了更可靠的对齐优化。该工作不仅为流模型中的强化学习训练提供了新工具,也为更广泛的视觉生成式RL研究指明了方向——即关注训练动态中的分布偏移与梯度均衡,是迈向更稳健、可扩展生成模型的关键一步。
论文与代码均已开源,为社区进一步探索提供了坚实基础。


— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7545
