策略优化

大模型训练

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

论文标题：Heterogeneous Agent Collaborative Reinforcement Learning 论文链接：https://arxiv.org/abs/2603.02604 Github Page: https://zzx-peter.github.io/hacrl/ Huggingface: https://huggingface…

2026年3月20日
263000
大模型训练

英伟达GDPO：突破GRPO局限，精准优化多奖励强化学习

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。然而，随着语言模型能力的不断提升，用户对它们的期待也在发生变化：不仅要回答正确，还要在各种不同场景下表现出符合多样化人类偏好的行为。为此，强化学习训练流程开始引入多种奖励信号，每一种奖励对应一种不同的偏好，用来共…

2026年1月11日
432000