异步训练

开源项目

小红书开源Relax：全异步RL训练引擎，解决全模态Agentic训练三重困境

小红书开源Relax：全异步RL训练引擎，解决全模态Agentic训练三重困境（上）随着强化学习（RL）后训练逐步延伸至全模态与Agentic场景，多模态数据异构、系统稳定性和角色耦合等方面的问题日益凸显。为此，小红书AI平台团队开源了 Relax —— 一个为全模态数据、Agentic工作流和大规模异步训练协同设计的现代RL训练引擎。实测其全异步Of…

2026年4月15日
500000
AI产业动态

阿里巴巴「3A」协同优化框架：以异步架构、非对称PPO与注意力机制重塑RL4LLM高效训练范式

近期，阿里巴巴ROLL团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出的「3A」协同优化框架，标志着强化学习在大语言模型（RL4LLM）领域迈入高效、精细与可解释的新阶段。该框架并非孤立技术堆砌，而是通过Async架构（异步训练）、Asymmetric PPO（非对称PPO）与Attention机制（基于注意力的推理节奏）的…

2025年11月10日
416000