策略优化
-
异构智能体协同强化学习:打破模型孤岛,实现双向互学与高效部署
论文标题:Heterogeneous Agent Collaborative Reinforcement Learning 论文链接:https://arxiv.org/abs/2603.02604 Github Page: https://zzx-peter.github.io/hacrl/ Huggingface: https://huggingface…
-
英伟达GDPO:突破GRPO局限,精准优化多奖励强化学习
GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。 然而,随着语言模型能力的不断提升,用户对它们的期待也在发生变化:不仅要回答正确,还要在各种不同场景下表现出符合多样化人类偏好的行为。为此,强化学习训练流程开始引入多种奖励信号,每一种奖励对应一种不同的偏好,用来共…