GRPO
-
GRPO-Guard:破解流模型强化学习过优化难题,重塑视觉生成对齐新范式
在视觉生成领域,强化学习从人类反馈(RLHF)及其变体已成为提升模型与人类偏好对齐的关键技术。其中,基于梯度的奖励策略优化(GRPO)因其高效性,在图像和视频生成的流模型中展现出显著潜力,如FlowGRPO和DanceGRPO等应用,已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而,近期研究发现,GRPO在流模型训练中存在一个隐蔽却致命的问题——…
在视觉生成领域,强化学习从人类反馈(RLHF)及其变体已成为提升模型与人类偏好对齐的关键技术。其中,基于梯度的奖励策略优化(GRPO)因其高效性,在图像和视频生成的流模型中展现出显著潜力,如FlowGRPO和DanceGRPO等应用,已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而,近期研究发现,GRPO在流模型训练中存在一个隐蔽却致命的问题——…