AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

2026年开年,智能体(Agent)依然是全球AI领域最受关注的赛道之一。由OpenClaw(原Clawbot)掀起的Agent热潮持续发酵,其影响力甚至让“一人公司”的概念首次具备了现实落地的可能性。

近日,OpenClaw在GitHub上的Star数量已超越React和Linux,成为非资源/教程类开源软件项目中最为瞩目的存在。

AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

从浏览器智能体到代码智能体,从个人助手到企业级工作流自动化,智能体所能处理的任务正变得日益复杂和多样。

与此同时,以LangChain、Claude Code、OpenClaw等为代表的各类运行时框架,不断拓展着智能体的能力边界。尽管这些框架为Agent赋予了巨大的应用潜力,但如何让它们在真实、动态的环境中持续学习与自我进化,仍缺乏成熟、系统的工程化支持。

其中,被寄予厚望、用于支撑智能体在复杂、多轮、长程任务中实现进化的强化学习(RL)训练,在工程落地层面面临诸多挑战,这在客观上限制了当前Agent能力的天花板。

AReaL v1.0的发布为这一领域带来了新的解决方案:一个开箱即用的Agentic RL(面向智能体的强化学习)训练底座已正式成形。

由蚂蚁集团与清华大学联合打造的开源强化学习框架AReaL,经过近一年的迭代,迎来了其里程碑式的稳定版本。作为一套面向智能体的全异步强化学习训练框架,AReaL v1.0最受瞩目的进展在于实现了“Agent一键接入RL训练”,有望重新定义智能体强化学习的工程范式。

AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

  • GitHub 仓库:https://github.com/inclusionAI/AReaL
  • 技术论文:https://arxiv.org/abs/2505.24298

在Agentic RL算法与系统协同创新的支持下,AReaL v1.0能够兼容任意Agent框架,仅需修改一个接口地址即可无缝接入RL训练流程,包括近期备受关注的OpenClaw,这极大地降低了强化学习的工程门槛。此外,AReaL v1.0还引入了系统化的AI辅助开发体系,并基于深度定制开发的PyTorch原生训练引擎Archon,实现了对千亿级MoE模型的端到端高效训练。

零代码接入 OpenClaw 训练

传统的Agent强化学习训练,通常要求开发者深入理解底层训练框架、修改Agent运行时代码,甚至重构整个数据流水线。AReaL v1.0旨在彻底打破这一壁垒——开发者无需修改Agent框架的任何一行代码。

以下通过一个实际案例展示其简易性。

完整案例:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

第一步:启动 RL 训练服务
执行以下命令:
uv run python3 examples/openclaw/train.py --config examples/openclaw/config.yaml
启动后,控制台将输出类似信息:
(AReaL) Proxy gateway available at http://x.x.x.x:xx
请记录此网关地址,它将作为连接Agent与RL训练服务的桥梁。

第二步:配置你的 Agent
以OpenClaw的一个变体ZeroClaw为例,仅需修改其配置文件,将API地址指向AReaL网关即可:
“`toml

~/.zeroclaw/config.toml

default_provider = “localhost”
api_key = “sk-sess-xxxxxxxxxxxx” # 从AReaL获取

[model_providers.localhost]
base_url = “http://” # AReaL代理网关地址
“`
配置完成后,ZeroClaw Agent的每一次LLM调用都将被自动记录,用于后续的强化学习训练。

第三步:正常使用你的 Agent
像往常一样启动并交互:
zeroclaw channel start # 启动Discord/Slack/CLI等任意交互渠道
你可以让Agent执行写代码、查资料等各类任务。在后台,AReaL会静默记录每一次对话轮次,生成用于训练的数据轨迹。

第四步:提供反馈,驱动Agent进化
当任务完成后,为Agent的表现提供奖励反馈:
python set_reward.py http://<gateway> --api-key sk-sess-xxx --reward 1.0
AReaL会自动将此交互轨迹与奖励信号打包,送入训练流水线。当收集到足够数量的交互轨迹(由配置中的batch_size参数控制),系统将自动触发一次训练迭代来更新模型权重。更新后的权重会无缝、实时地应用到后续的推理请求中,无需重启Agent服务。

架构破局:以「异步训练」与「代理网关」实现自我进化

AReaL如何实现OpenClaw等智能体的自我进化?其核心在于两项关键的架构设计:「全异步训练」和「代理网关」。

AReaL的核心创新之一是将强化学习中的训练与推理过程完全解耦。推理引擎负责流式生成交互轨迹,训练引擎则持续消费这些样本进行学习,两者可在独立的GPU上并行运行。通过精心设计的PPO算法修正与陈旧度控制机制,AReaL在保证训练稳定性的同时,实现了2倍以上的吞吐量提升。这种设计在智能体训练场景中优势显著——训练引擎异步更新参数,不会阻塞智能体的实时推理,使得OpenClaw能够“边工作边学习”。

AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元
AReaL的代理网关与全异步强化学习架构示意图

为了广泛兼容各类智能体框架,AReaL以“协议”为标准,设计了一个代理网关(Proxy Gateway)。该网关提供兼容OpenAI/Anthropic API协议的推理服务,将接收到的请求路由至本地推理引擎(如SGLang、vLLM)进行处理,其使用体验与普通推理服务无异。

然而,此代理网关的功能不止于路由。它会在执行推理的同时,捕获每一次LLM交互中输入输出的Token级详细信息。在整条交互轨迹结束后,AReaL会将最终获得的奖励值进行时间差分反向传播,为轨迹中的每一步决策分配合理的奖励。最终,这些信息被导出为独立的训练样本。这种方法使得早期的决策也能获得恰当的奖励评估,有助于模型学会“为长远目标做出正确的早期选择”。

传统方案中,训练时需要将推理产生的文本重新进行分词(tokenize),可能因分词器配置差异导致token序列不一致。AReaL的独立导出方案从根本上避免了该问题:推理时产生的token IDs被直接缓存,训练时原样使用。发送给训练引擎进行梯度计算的tokens与推理引擎生成的tokens保持100%一致。

AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元
AReaL中多轮交互应用案例的具体流程示意图

基于上述架构设计,AReaL 能够支持任意 Agent 框架的训练。无论是 OpenClaw 还是用户自行搭建的 Agent,只需将其 API 地址指向 AReaL 的代理网关,即可自动接入强化学习训练流程。

开发者无需修改原有 Agent 的代码或业务逻辑,即可开启 RL 训练。这意味着,原本碎片化的 Agent 接口被收敛为一层标准化的协议级 RL 入口,使得“任意 Agent 可训练”在工程上首次真正可行。

然而,在训练过程中,同一个提示词可能产生多条不同的轨迹(例如多次采样),每条轨迹又会被 AReaL 拆分为多条独立的输入输出对。一个批次内的数据通常包含大量共享前缀,传统训练方式对每条轨迹独立计算,造成了严重的冗余计算。

为解决此问题,AReaL 引入了基于前缀树(Trie)的序列打包方案:
* 构建 Trie 结构:将共享前缀的序列压缩至同一树形结构中。
* 树状注意力计算:AReaL-DTA 方法实现了完整的树状注意力前向-后向计算方案,确保共享前缀仅被计算一次。

该树状注意力机制带来了显著的性能提升:单 Worker 训练吞吐最高提升 8.31 倍,集群整体吞吐最高提升 6.20 倍,同时相比基线方案减少了超过 50% 的 GPU 显存占用。

AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

用 AI 重构引擎:AI 基础设施的工程范式革新

除了降低 Agent RL 的训练门槛,AReaL v1.0 还带来了训练引擎的重大更新。

在大规模 RL 训练领域,Megatron-LM 是业界标杆,但其依赖安装需要 Docker 环境和复杂的 C++ 编译,代码结构嵌套较深,调试与扩展难度较高。AReaL 团队思考:能否使用 PyTorch 原生 API 实现具备同等能力的分布式训练引擎?

答案是团队基于 torchtitan 深度定制的训练引擎 Archon——一个支持完整 5D 并行(DP、TP、PP、CP、EP)的 PyTorch 原生训练引擎:
* 数据并行 (DP):基于 FSDP2 fully_shard,相比 Megatron 默认的数据并行方案进一步拆分模型参数。
* 流水线并行 (PP):基于 torch.distributed.pipelining,支持 ZeroBubblePipeline、1F1B、Interleaved1F1B 等调度方式。
* 张量并行 (TP):基于 DTensor,使用 ColwiseParallel / RowwiseParallel 切分权重。
* 上下文并行 (CP):基于 Ulysses Sequence Parallelism,通过 all-to-all 通信分布式处理长序列。
* 专家并行 (EP):基于 all-to-all + grouped_mm,支持 EP + ETP 2D 分片。

令人惊讶的是,实现并验证这样一个复杂的分布式系统,仅耗费了 1 人·月的工作量——在 32 天内通过累计 72 万行代码修改,完整实现了 Archon 引擎,并验证了其可训练千亿参数的 MoE 模型。

创造这一效率奇迹的秘诀,在于 AReaL 集成的一整套 AI 辅助开发体系,实现了复杂工程开发的高度自动化。

AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

这套驾驭 AI 编程的方法完全开源,旨在让每位开发者都能借助“专业团队”,在 AReaL 中加速自己的 Agent RL 应用开发:
1. 配置领域专家 Agents:为 AReaL 各核心模块配置具备模块级架构认知的 Agents,在代码修改时提供上下文相关的精准指导。
2. 引入命令驱动的引导式工作流:通过预设的指令将常见开发任务流程化、标准化,使开发范式从“手写实现”转向“声明需求”,由 AI 自动完成常见且耗时的运维任务。
3. 实现全流程自动化:在真实开发场景中,由特定 Agent 全程自动化完成任务规划、代码生成、自动校验到 PR 创建。

AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

这套 AI 辅助开发体系不仅加速了 Archon 引擎的落地,也释放出一个清晰信号:AI 辅助编程已不仅是效率工具,更具备了深度参与复杂系统开发的实际生产力。这一“用 AI 构建训练 AI 的工具”的工程实践,重新定义了效率边界。

相应地,软件工程的角色分工正在发生深刻重构。人类开发者可以将更多精力从具体实现和重复性细节中解放出来,转向“明确需求、设计系统”等决策性工作;而 AI 则更多地承担流程固定、规则明确的工程落地任务。

在此范式变革下,原本重工程、重经验的 Agentic RL 有望随着开发门槛的系统性降低,走向更广泛的开发者群体。

结语

如果说过去一两年,行业主要精力集中于教 Agent“如何做事”——即通过更好的工具调用、更复杂的工作流编排和更精细的提示词工程,让 Agent 逐步完成任务。那么下一阶段,“如何让 Agent 自我进化”将成为重中之重。

正因如此,以 RL 为代表的系统化训练,正从过去的加分项逐渐转变为决定 Agent 能力上限的关键变量。

在此重要转折点,AReaL v1.0 为行业提供了一个兼具易用性、可靠性和强扩展性的开源 Agentic RL 范本:在应用层保持开放与兼容,轻松接入不同 Agent 框架;在引擎层深度优化,极致压榨训练效率与资源利用率。

未来,AReaL 团队将继续在系统组件可用性、Archon 引擎生产效率、AI 辅助开发能力以及 VLM/Omni 模型 Agent 训练等四个方向持续发力,致力于打造成为 Agentic AI 时代的高性能 RL 运行时底座。

当训练框架变得足够简单,当 Agent 的接入方式足够统一,当 AI 能够深度辅助底层系统的开发,Agentic RL 的大规模落地必将跨越少数顶尖团队的门槛,成为更普及的大众开发者利器。这正是“技术民主化”的核心要旨。

随着此类高性能底座的日益成熟,Agent 有望加速跨越仅能跑通 Demo 的初级阶段,真正开启持续、自主、规模化进化的新纪元。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24026

(0)
上一篇 2天前
下一篇 1天前

相关推荐

  • 开源神器LibrePods破解AirPods私有协议,安卓手机也能享受原生级体验

    打开 GitHub 趋势榜单页面,一个名为 LibrePods 的开源项目登上了月榜第二。该项目的描述宣称:AirPods 已摆脱苹果生态的束缚。 LibrePods 简介 AirPods Pro 的降噪和通透模式体验出色,但一旦离开苹果生态,它就变成了一款普通的蓝牙耳机。在非苹果设备上,摘下耳机无法自动暂停、无法查看具体电量、不能切换降噪模式,体验大打折扣…

    2025年12月8日
    42200
  • TuriX-CUA:让AI接管你的电脑,跨平台智能体实现自动化操作

    TuriX-CUA(Computer Use Agent)是一个基于 Python 的开源 AI 智能体项目,旨在让 AI 接管你的电脑,通过观察屏幕、操作鼠标和键盘来自动化执行任务。 该项目近期进行了重大更新,引入了多模型架构,在标准测试集上的通过率超过了 80%。 项目地址:https://github.com/TurixAI/TuriX-CUA 项目简…

    2026年1月4日
    24000
  • NotebookLM开源替代方案全解析:三大GitHub明星项目打造本地化AI笔记助手

    NotebookLM 是谷歌推出的一款 AI 笔记助手。与普通 AI 不同,它严格限制在你上传的文档范围内进行回答,并能提供精准的原文引用。其标志性功能之一是播客生成,能将上传的复杂资料一键转换为逼真的双人英语对话播客,让学习过程更有趣,也支持通过“听”来消化信息。 本文将盘点 GitHub 上所有 NotebookLM 的开源替代方案,帮助你部署自己的本地…

    2025年12月19日
    27000
  • GitHub四大热门开源项目盘点:自适应爬虫、AI上下文工程、远程代码助手与Hugging Face技能包

    01 自适应爬虫:告别网站改版带来的维护噩梦 对于爬虫开发者而言,网站结构更新是常见的痛点,往往导致精心编写的选择器失效,需要耗费大量时间重新调试。Scrapling 项目正是为解决这一问题而生。它是一个自适应的 Python 爬虫库,能够在网站结构变化后,自动重新定位目标元素,显著降低维护成本。 该项目在 GitHub 上已获得 13.7K Star,备受…

    2026年2月27日
    13100
  • 国产AI开发平台BISHENG:GitHub斩获10K星,企业级LLM DevOps解决方案

    在浏览 GitHub 时,一个名为 BISHENG 的国产 AI 开源项目引起了我的注意。 这是一款主要面向企业的开源 AgentOps 平台。其名称源自活字印刷术的发明者——毕昇。活字印刷术曾极大地推动了人类知识的传播,而 BISHENG 团队的愿景,则是为智能应用的广泛落地提供有力支撑。 开源项目简介 BISHENG 已在 GitHub 上获得了超过 1…

    2025年11月24日
    18800