RL训练

  • 小红书开源Relax:全异步RL训练引擎,解决全模态Agentic训练三重困境

    小红书开源Relax:全异步RL训练引擎,解决全模态Agentic训练三重困境(上) 随着强化学习(RL)后训练逐步延伸至全模态与Agentic场景,多模态数据异构、系统稳定性和角色耦合等方面的问题日益凸显。 为此,小红书AI平台团队开源了 Relax —— 一个为全模态数据、Agentic工作流和大规模异步训练协同设计的现代RL训练引擎。 实测其全异步Of…

    4小时前
    4300