2026年开年,智能体(Agent)依然是全球AI领域最受关注的赛道之一。由OpenClaw(原Clawbot)掀起的Agent热潮持续发酵,其影响力甚至让“一人公司”的概念首次具备了现实落地的可能性。
近日,OpenClaw在GitHub上的Star数量已超越React和Linux,成为非资源/教程类开源软件项目中最为瞩目的存在。

从浏览器智能体到代码智能体,从个人助手到企业级工作流自动化,智能体所能处理的任务正变得日益复杂和多样。
与此同时,以LangChain、Claude Code、OpenClaw等为代表的各类运行时框架,不断拓展着智能体的能力边界。尽管这些框架为Agent赋予了巨大的应用潜力,但如何让它们在真实、动态的环境中持续学习与自我进化,仍缺乏成熟、系统的工程化支持。
其中,被寄予厚望、用于支撑智能体在复杂、多轮、长程任务中实现进化的强化学习(RL)训练,在工程落地层面面临诸多挑战,这在客观上限制了当前Agent能力的天花板。
AReaL v1.0的发布为这一领域带来了新的解决方案:一个开箱即用的Agentic RL(面向智能体的强化学习)训练底座已正式成形。
由蚂蚁集团与清华大学联合打造的开源强化学习框架AReaL,经过近一年的迭代,迎来了其里程碑式的稳定版本。作为一套面向智能体的全异步强化学习训练框架,AReaL v1.0最受瞩目的进展在于实现了“Agent一键接入RL训练”,有望重新定义智能体强化学习的工程范式。

- GitHub 仓库:https://github.com/inclusionAI/AReaL
- 技术论文:https://arxiv.org/abs/2505.24298
在Agentic RL算法与系统协同创新的支持下,AReaL v1.0能够兼容任意Agent框架,仅需修改一个接口地址即可无缝接入RL训练流程,包括近期备受关注的OpenClaw,这极大地降低了强化学习的工程门槛。此外,AReaL v1.0还引入了系统化的AI辅助开发体系,并基于深度定制开发的PyTorch原生训练引擎Archon,实现了对千亿级MoE模型的端到端高效训练。
零代码接入 OpenClaw 训练
传统的Agent强化学习训练,通常要求开发者深入理解底层训练框架、修改Agent运行时代码,甚至重构整个数据流水线。AReaL v1.0旨在彻底打破这一壁垒——开发者无需修改Agent框架的任何一行代码。
以下通过一个实际案例展示其简易性。
完整案例:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw
第一步:启动 RL 训练服务
执行以下命令:uv run python3 examples/openclaw/train.py --config examples/openclaw/config.yaml
启动后,控制台将输出类似信息:(AReaL) Proxy gateway available at http://x.x.x.x:xx
请记录此网关地址,它将作为连接Agent与RL训练服务的桥梁。
第二步:配置你的 Agent
以OpenClaw的一个变体ZeroClaw为例,仅需修改其配置文件,将API地址指向AReaL网关即可:
“`toml
~/.zeroclaw/config.toml
default_provider = “localhost”
api_key = “sk-sess-xxxxxxxxxxxx” # 从AReaL获取
[model_providers.localhost]
base_url = “http://” # AReaL代理网关地址
“`
配置完成后,ZeroClaw Agent的每一次LLM调用都将被自动记录,用于后续的强化学习训练。
第三步:正常使用你的 Agent
像往常一样启动并交互:zeroclaw channel start # 启动Discord/Slack/CLI等任意交互渠道
你可以让Agent执行写代码、查资料等各类任务。在后台,AReaL会静默记录每一次对话轮次,生成用于训练的数据轨迹。
第四步:提供反馈,驱动Agent进化
当任务完成后,为Agent的表现提供奖励反馈:python set_reward.py http://<gateway> --api-key sk-sess-xxx --reward 1.0
AReaL会自动将此交互轨迹与奖励信号打包,送入训练流水线。当收集到足够数量的交互轨迹(由配置中的batch_size参数控制),系统将自动触发一次训练迭代来更新模型权重。更新后的权重会无缝、实时地应用到后续的推理请求中,无需重启Agent服务。
架构破局:以「异步训练」与「代理网关」实现自我进化
AReaL如何实现OpenClaw等智能体的自我进化?其核心在于两项关键的架构设计:「全异步训练」和「代理网关」。
AReaL的核心创新之一是将强化学习中的训练与推理过程完全解耦。推理引擎负责流式生成交互轨迹,训练引擎则持续消费这些样本进行学习,两者可在独立的GPU上并行运行。通过精心设计的PPO算法修正与陈旧度控制机制,AReaL在保证训练稳定性的同时,实现了2倍以上的吞吐量提升。这种设计在智能体训练场景中优势显著——训练引擎异步更新参数,不会阻塞智能体的实时推理,使得OpenClaw能够“边工作边学习”。

AReaL的代理网关与全异步强化学习架构示意图
为了广泛兼容各类智能体框架,AReaL以“协议”为标准,设计了一个代理网关(Proxy Gateway)。该网关提供兼容OpenAI/Anthropic API协议的推理服务,将接收到的请求路由至本地推理引擎(如SGLang、vLLM)进行处理,其使用体验与普通推理服务无异。
然而,此代理网关的功能不止于路由。它会在执行推理的同时,捕获每一次LLM交互中输入输出的Token级详细信息。在整条交互轨迹结束后,AReaL会将最终获得的奖励值进行时间差分反向传播,为轨迹中的每一步决策分配合理的奖励。最终,这些信息被导出为独立的训练样本。这种方法使得早期的决策也能获得恰当的奖励评估,有助于模型学会“为长远目标做出正确的早期选择”。
传统方案中,训练时需要将推理产生的文本重新进行分词(tokenize),可能因分词器配置差异导致token序列不一致。AReaL的独立导出方案从根本上避免了该问题:推理时产生的token IDs被直接缓存,训练时原样使用。发送给训练引擎进行梯度计算的tokens与推理引擎生成的tokens保持100%一致。

AReaL中多轮交互应用案例的具体流程示意图
基于上述架构设计,AReaL 能够支持任意 Agent 框架的训练。无论是 OpenClaw 还是用户自行搭建的 Agent,只需将其 API 地址指向 AReaL 的代理网关,即可自动接入强化学习训练流程。
开发者无需修改原有 Agent 的代码或业务逻辑,即可开启 RL 训练。这意味着,原本碎片化的 Agent 接口被收敛为一层标准化的协议级 RL 入口,使得“任意 Agent 可训练”在工程上首次真正可行。
然而,在训练过程中,同一个提示词可能产生多条不同的轨迹(例如多次采样),每条轨迹又会被 AReaL 拆分为多条独立的输入输出对。一个批次内的数据通常包含大量共享前缀,传统训练方式对每条轨迹独立计算,造成了严重的冗余计算。
为解决此问题,AReaL 引入了基于前缀树(Trie)的序列打包方案:
* 构建 Trie 结构:将共享前缀的序列压缩至同一树形结构中。
* 树状注意力计算:AReaL-DTA 方法实现了完整的树状注意力前向-后向计算方案,确保共享前缀仅被计算一次。
该树状注意力机制带来了显著的性能提升:单 Worker 训练吞吐最高提升 8.31 倍,集群整体吞吐最高提升 6.20 倍,同时相比基线方案减少了超过 50% 的 GPU 显存占用。

用 AI 重构引擎:AI 基础设施的工程范式革新
除了降低 Agent RL 的训练门槛,AReaL v1.0 还带来了训练引擎的重大更新。
在大规模 RL 训练领域,Megatron-LM 是业界标杆,但其依赖安装需要 Docker 环境和复杂的 C++ 编译,代码结构嵌套较深,调试与扩展难度较高。AReaL 团队思考:能否使用 PyTorch 原生 API 实现具备同等能力的分布式训练引擎?
答案是团队基于 torchtitan 深度定制的训练引擎 Archon——一个支持完整 5D 并行(DP、TP、PP、CP、EP)的 PyTorch 原生训练引擎:
* 数据并行 (DP):基于 FSDP2 fully_shard,相比 Megatron 默认的数据并行方案进一步拆分模型参数。
* 流水线并行 (PP):基于 torch.distributed.pipelining,支持 ZeroBubblePipeline、1F1B、Interleaved1F1B 等调度方式。
* 张量并行 (TP):基于 DTensor,使用 ColwiseParallel / RowwiseParallel 切分权重。
* 上下文并行 (CP):基于 Ulysses Sequence Parallelism,通过 all-to-all 通信分布式处理长序列。
* 专家并行 (EP):基于 all-to-all + grouped_mm,支持 EP + ETP 2D 分片。
令人惊讶的是,实现并验证这样一个复杂的分布式系统,仅耗费了 1 人·月的工作量——在 32 天内通过累计 72 万行代码修改,完整实现了 Archon 引擎,并验证了其可训练千亿参数的 MoE 模型。
创造这一效率奇迹的秘诀,在于 AReaL 集成的一整套 AI 辅助开发体系,实现了复杂工程开发的高度自动化。

这套驾驭 AI 编程的方法完全开源,旨在让每位开发者都能借助“专业团队”,在 AReaL 中加速自己的 Agent RL 应用开发:
1. 配置领域专家 Agents:为 AReaL 各核心模块配置具备模块级架构认知的 Agents,在代码修改时提供上下文相关的精准指导。
2. 引入命令驱动的引导式工作流:通过预设的指令将常见开发任务流程化、标准化,使开发范式从“手写实现”转向“声明需求”,由 AI 自动完成常见且耗时的运维任务。
3. 实现全流程自动化:在真实开发场景中,由特定 Agent 全程自动化完成任务规划、代码生成、自动校验到 PR 创建。

这套 AI 辅助开发体系不仅加速了 Archon 引擎的落地,也释放出一个清晰信号:AI 辅助编程已不仅是效率工具,更具备了深度参与复杂系统开发的实际生产力。这一“用 AI 构建训练 AI 的工具”的工程实践,重新定义了效率边界。
相应地,软件工程的角色分工正在发生深刻重构。人类开发者可以将更多精力从具体实现和重复性细节中解放出来,转向“明确需求、设计系统”等决策性工作;而 AI 则更多地承担流程固定、规则明确的工程落地任务。
在此范式变革下,原本重工程、重经验的 Agentic RL 有望随着开发门槛的系统性降低,走向更广泛的开发者群体。
结语
如果说过去一两年,行业主要精力集中于教 Agent“如何做事”——即通过更好的工具调用、更复杂的工作流编排和更精细的提示词工程,让 Agent 逐步完成任务。那么下一阶段,“如何让 Agent 自我进化”将成为重中之重。
正因如此,以 RL 为代表的系统化训练,正从过去的加分项逐渐转变为决定 Agent 能力上限的关键变量。
在此重要转折点,AReaL v1.0 为行业提供了一个兼具易用性、可靠性和强扩展性的开源 Agentic RL 范本:在应用层保持开放与兼容,轻松接入不同 Agent 框架;在引擎层深度优化,极致压榨训练效率与资源利用率。
未来,AReaL 团队将继续在系统组件可用性、Archon 引擎生产效率、AI 辅助开发能力以及 VLM/Omni 模型 Agent 训练等四个方向持续发力,致力于打造成为 Agentic AI 时代的高性能 RL 运行时底座。
当训练框架变得足够简单,当 Agent 的接入方式足够统一,当 AI 能够深度辅助底层系统的开发,Agentic RL 的大规模落地必将跨越少数顶尖团队的门槛,成为更普及的大众开发者利器。这正是“技术民主化”的核心要旨。
随着此类高性能底座的日益成熟,Agent 有望加速跨越仅能跑通 Demo 的初级阶段,真正开启持续、自主、规模化进化的新纪元。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24026
