GDPO

大模型训练

英伟达GDPO：突破GRPO局限，精准优化多奖励强化学习

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。然而，随着语言模型能力的不断提升，用户对它们的期待也在发生变化：不仅要回答正确，还要在各种不同场景下表现出符合多样化人类偏好的行为。为此，强化学习训练流程开始引入多种奖励信号，每一种奖励对应一种不同的偏好，用来共…

2026年1月11日
432000