GRPO-Guard：破解流模型强化学习过优化难题，重塑视觉生成对齐新范式

2025年11月13日上午11:40 • AI产业动态 • 阅读 2

在视觉生成领域，强化学习从人类反馈（RLHF）及其变体已成为提升模型与人类偏好对齐的关键技术。其中，基于梯度的奖励策略优化（GRPO）因其高效性，在图像和视频生成的流模型中展现出显著潜力，如FlowGRPO和DanceGRPO等应用，已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而，近期研究发现，GRPO在流模型训练中存在一个隐蔽却致命的问题——隐式过度优化（Implicit Over-Optimization），这导致模型在代理奖励持续提升的同时，实际生成质量和对齐度反而下降，严重制约了其应用价值。

**核心机制缺陷：比率分布偏移与裁剪失效**

GRPO的核心在于通过重要性采样比率（importance ratio）来调整策略梯度，并引入裁剪（clip）机制约束过于自信的正负样本梯度，以维持训练稳定性。然而，中山大学、快手可灵及港中文MMLab的联合研究团队通过实证分析揭示，该机制存在系统性偏差。在流模型特有的去噪扩散过程中，重要性比率分布并非理想状态：其均值长期低于1，且不同去噪步骤下的方差差异显著。

这种分布偏移源于离策略（off-policy）估计中二阶项的影响。具体而言，对数重要性比率受到二次项干扰，导致均值偏向小于1，同时方差随着去噪步骤增加而逐渐增大。

理想情况下，比率均值应接近1，以确保裁剪区间左右均衡，有效约束有害梯度。但均值偏移使得过度自信的正梯度无法被充分限制；而方差差异则导致部分步骤的裁剪机制完全失效。结果，模型在训练中极易陷入过度优化状态：代理奖励（如PickScore、文本对齐分数）持续上升，但真实图像质量、文本-提示对齐度等黄金标准（gold score）反而恶化。

此外，流模型中不同去噪步骤的梯度贡献本身就不均衡。受梯度系数影响，高噪声步骤贡献较小，低噪声步骤贡献较大，这进一步加剧了模型对特定噪声条件的偏向，削弱了生成多样性。

**创新解决方案：GRPO-Guard的双重调控架构**

针对上述问题，研究团队提出了GRPO-Guard——首个专门针对GRPO在流模型中过度优化问题的系统性解决方案。该方案在原有GRPO框架上引入两项核心改进：比率归一化（RatioNorm）与跨步梯度平衡（Cross-Step Gradient Balancing），旨在从分布校正和梯度均衡两个维度恢复训练稳定性。

**1. 比率归一化（RatioNorm）**

为解决比率分布偏移，GRPO-Guard对每个去噪步骤的重要性比率分布进行独立标准化，使其均值重新校准至接近1，方差保持一致。这一操作本质上是恢复了裁剪机制的有效性，确保正负样本梯度都能得到恰当约束，从而从根本上避免因正样本裁剪失效引发的过度优化。

**2. 跨步梯度平衡**

基于归一化后的比率，GRPO-Guard进一步引入梯度平衡机制，对各去噪步骤的梯度贡献进行加权均衡，促使策略在整个噪声时间表上均匀探索。这不仅防止了模型对单一噪声步骤的过拟合，还显著提升了训练的稳定性和生成输出的多样性。

调整前后的分布对比清晰展示了GRPO-Guard的效果：在原始FlowGRPO中，比率均值小于1，导致破坏性正样本约束失效；而在GRPO-Guard下，分布均值回归至1附近，约束机制恢复正常。

**实验验证：多场景下的显著提升**

研究团队在多种GRPO变体（FlowGRPO、DanceGRPO）、不同扩散骨干模型（SD3.5-M、FLUX1.dev）以及多样代理任务（文本渲染、GenEval、PickScore）上全面评估了GRPO-Guard。实验结果表明，该方案能显著缓解过度优化现象，同时保持与基线模型相当甚至更优的性能提升。

在代理分数与黄金分数的对比中，基线方法在训练后期普遍出现黄金分数下降，而GRPO-Guard则有效遏制了这一趋势，实现了更稳健的优化轨迹。

训练过程的可视化进一步证实了其优势：在FlowGRPO/DanceGRPO等基线算法中，图像质量随训练进行明显退化；而GRPO-Guard在训练后期仍能维持较高的生成质量。

更多样例显示，基线方法在文本响应和图像细节上呈现明显退化，而GRPO-Guard在提升目标奖励的同时，较好地保持了文本-图像对齐度和视觉保真度。

特别是在PickScore任务中，基线方法在训练后期生成的人体比例不一致、人脸多样性骤减，而GRPO-Guard显著缓解了这些问题，提升了生成结果的多样性和一致性。

**总结与展望**

GRPO-Guard作为首个针对性解决GRPO在视觉生成中过度优化问题的研究，通过比率归一化和跨步梯度平衡双重机制，有效稳定了策略更新过程，恢复了裁剪约束的效力，从而在多种模型和任务上实现了更可靠的对齐优化。该工作不仅为流模型中的强化学习训练提供了新工具，也为更广泛的视觉生成式RL研究指明了方向——即关注训练动态中的分布偏移与梯度均衡，是迈向更稳健、可扩展生成模型的关键一步。

论文与代码均已开源，为社区进一步探索提供了坚实基础。