GRPO - 鲸林向海

RLVR/GRPO组内优势估计的系统性偏差：揭秘大模型训练中的隐藏陷阱

近年来，大模型在数学推理、代码生成等任务上取得突破，其背后一个关键技术是RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励的强化学习）。简单来说，RLVR并非让模型被动接受人工评分，而是让模型主动生成多种解法，并依据可验证的客观规则（如答案是否正确）进行自我改进。这种通过反复试错来提升性能的模…

2026年1月30日

329000

大模型训练

英伟达GDPO：突破GRPO局限，精准优化多奖励强化学习

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。然而，随着语言模型能力的不断提升，用户对它们的期待也在发生变化：不仅要回答正确，还要在各种不同场景下表现出符合多样化人类偏好的行为。为此，强化学习训练流程开始引入多种奖励信号，每一种奖励对应一种不同的偏好，用来共…

2026年1月11日

340000

AI产业动态

GRPO-Guard：破解流模型强化学习过优化难题，重塑视觉生成对齐新范式

在视觉生成领域，强化学习从人类反馈（RLHF）及其变体已成为提升模型与人类偏好对齐的关键技术。其中，基于梯度的奖励策略优化（GRPO）因其高效性，在图像和视频生成的流模型中展现出显著潜力，如FlowGRPO和DanceGRPO等应用，已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而，近期研究发现，GRPO在流模型训练中存在一个隐蔽却致命的问题——…

2025年11月13日

261000