2026年开年，智能体（Agent）依然是全球AI领域最受关注的赛道之一。由OpenClaw（原Clawbot）掀起的Agent热潮持续发酵，其影响力甚至让“一人公司”的概念首次具备了现实落地的可能性。

近日，OpenClaw在GitHub上的Star数量已超越React和Linux，成为非资源/教程类开源软件项目中最为瞩目的存在。

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元

从浏览器智能体到代码智能体，从个人助手到企业级工作流自动化，智能体所能处理的任务正变得日益复杂和多样。

与此同时，以LangChain、Claude Code、OpenClaw等为代表的各类运行时框架，不断拓展着智能体的能力边界。尽管这些框架为Agent赋予了巨大的应用潜力，但如何让它们在真实、动态的环境中持续学习与自我进化，仍缺乏成熟、系统的工程化支持。

其中，被寄予厚望、用于支撑智能体在复杂、多轮、长程任务中实现进化的强化学习（RL）训练，在工程落地层面面临诸多挑战，这在客观上限制了当前Agent能力的天花板。

AReaL v1.0的发布为这一领域带来了新的解决方案：一个开箱即用的Agentic RL（面向智能体的强化学习）训练底座已正式成形。

由蚂蚁集团与清华大学联合打造的开源强化学习框架AReaL，经过近一年的迭代，迎来了其里程碑式的稳定版本。作为一套面向智能体的全异步强化学习训练框架，AReaL v1.0最受瞩目的进展在于实现了“Agent一键接入RL训练”，有望重新定义智能体强化学习的工程范式。

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元

GitHub 仓库：https://github.com/inclusionAI/AReaL
技术论文：https://arxiv.org/abs/2505.24298

在Agentic RL算法与系统协同创新的支持下，AReaL v1.0能够兼容任意Agent框架，仅需修改一个接口地址即可无缝接入RL训练流程，包括近期备受关注的OpenClaw，这极大地降低了强化学习的工程门槛。此外，AReaL v1.0还引入了系统化的AI辅助开发体系，并基于深度定制开发的PyTorch原生训练引擎Archon，实现了对千亿级MoE模型的端到端高效训练。

零代码接入 OpenClaw 训练

传统的Agent强化学习训练，通常要求开发者深入理解底层训练框架、修改Agent运行时代码，甚至重构整个数据流水线。AReaL v1.0旨在彻底打破这一壁垒——开发者无需修改Agent框架的任何一行代码。

以下通过一个实际案例展示其简易性。

完整案例：https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

第一步：启动 RL 训练服务
执行以下命令：
uv run python3 examples/openclaw/train.py --config examples/openclaw/config.yaml
启动后，控制台将输出类似信息：
(AReaL) Proxy gateway available at http://x.x.x.x:xx
请记录此网关地址，它将作为连接Agent与RL训练服务的桥梁。

第二步：配置你的 Agent
以OpenClaw的一个变体ZeroClaw为例，仅需修改其配置文件，将API地址指向AReaL网关即可：
“`toml

~/.zeroclaw/config.toml

default_provider = “localhost”
api_key = “sk-sess-xxxxxxxxxxxx” # 从AReaL获取

[model_providers.localhost]
base_url = “http://” # AReaL代理网关地址
“`
配置完成后，ZeroClaw Agent的每一次LLM调用都将被自动记录，用于后续的强化学习训练。

第三步：正常使用你的 Agent
像往常一样启动并交互：
zeroclaw channel start # 启动Discord/Slack/CLI等任意交互渠道
你可以让Agent执行写代码、查资料等各类任务。在后台，AReaL会静默记录每一次对话轮次，生成用于训练的数据轨迹。

第四步：提供反馈，驱动Agent进化
当任务完成后，为Agent的表现提供奖励反馈：
python set_reward.py http://<gateway> --api-key sk-sess-xxx --reward 1.0
AReaL会自动将此交互轨迹与奖励信号打包，送入训练流水线。当收集到足够数量的交互轨迹（由配置中的batch_size参数控制），系统将自动触发一次训练迭代来更新模型权重。更新后的权重会无缝、实时地应用到后续的推理请求中，无需重启Agent服务。

架构破局：以「异步训练」与「代理网关」实现自我进化

AReaL如何实现OpenClaw等智能体的自我进化？其核心在于两项关键的架构设计：「全异步训练」和「代理网关」。

AReaL的核心创新之一是将强化学习中的训练与推理过程完全解耦。推理引擎负责流式生成交互轨迹，训练引擎则持续消费这些样本进行学习，两者可在独立的GPU上并行运行。通过精心设计的PPO算法修正与陈旧度控制机制，AReaL在保证训练稳定性的同时，实现了2倍以上的吞吐量提升。这种设计在智能体训练场景中优势显著——训练引擎异步更新参数，不会阻塞智能体的实时推理，使得OpenClaw能够“边工作边学习”。

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元
AReaL的代理网关与全异步强化学习架构示意图

为了广泛兼容各类智能体框架，AReaL以“协议”为标准，设计了一个代理网关（Proxy Gateway）。该网关提供兼容OpenAI/Anthropic API协议的推理服务，将接收到的请求路由至本地推理引擎（如SGLang、vLLM）进行处理，其使用体验与普通推理服务无异。

然而，此代理网关的功能不止于路由。它会在执行推理的同时，捕获每一次LLM交互中输入输出的Token级详细信息。在整条交互轨迹结束后，AReaL会将最终获得的奖励值进行时间差分反向传播，为轨迹中的每一步决策分配合理的奖励。最终，这些信息被导出为独立的训练样本。这种方法使得早期的决策也能获得恰当的奖励评估，有助于模型学会“为长远目标做出正确的早期选择”。

传统方案中，训练时需要将推理产生的文本重新进行分词（tokenize），可能因分词器配置差异导致token序列不一致。AReaL的独立导出方案从根本上避免了该问题：推理时产生的token IDs被直接缓存，训练时原样使用。发送给训练引擎进行梯度计算的tokens与推理引擎生成的tokens保持100%一致。

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元
AReaL中多轮交互应用案例的具体流程示意图

基于上述架构设计，AReaL 能够支持任意 Agent 框架的训练。无论是 OpenClaw 还是用户自行搭建的 Agent，只需将其 API 地址指向 AReaL 的代理网关，即可自动接入强化学习训练流程。

开发者无需修改原有 Agent 的代码或业务逻辑，即可开启 RL 训练。这意味着，原本碎片化的 Agent 接口被收敛为一层标准化的协议级 RL 入口，使得“任意 Agent 可训练”在工程上首次真正可行。

然而，在训练过程中，同一个提示词可能产生多条不同的轨迹（例如多次采样），每条轨迹又会被 AReaL 拆分为多条独立的输入输出对。一个批次内的数据通常包含大量共享前缀，传统训练方式对每条轨迹独立计算，造成了严重的冗余计算。

为解决此问题，AReaL 引入了基于前缀树（Trie）的序列打包方案：
* 构建 Trie 结构：将共享前缀的序列压缩至同一树形结构中。
* 树状注意力计算：AReaL-DTA 方法实现了完整的树状注意力前向-后向计算方案，确保共享前缀仅被计算一次。

该树状注意力机制带来了显著的性能提升：单 Worker 训练吞吐最高提升 8.31 倍，集群整体吞吐最高提升 6.20 倍，同时相比基线方案减少了超过 50% 的 GPU 显存占用。

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元

用 AI 重构引擎：AI 基础设施的工程范式革新

除了降低 Agent RL 的训练门槛，AReaL v1.0 还带来了训练引擎的重大更新。

在大规模 RL 训练领域，Megatron-LM 是业界标杆，但其依赖安装需要 Docker 环境和复杂的 C++ 编译，代码结构嵌套较深，调试与扩展难度较高。AReaL 团队思考：能否使用 PyTorch 原生 API 实现具备同等能力的分布式训练引擎？

答案是团队基于 torchtitan 深度定制的训练引擎 Archon——一个支持完整 5D 并行（DP、TP、PP、CP、EP）的 PyTorch 原生训练引擎：
* 数据并行 (DP)：基于 FSDP2 fully_shard，相比 Megatron 默认的数据并行方案进一步拆分模型参数。
* 流水线并行 (PP)：基于 torch.distributed.pipelining，支持 ZeroBubblePipeline、1F1B、Interleaved1F1B 等调度方式。
* 张量并行 (TP)：基于 DTensor，使用 ColwiseParallel / RowwiseParallel 切分权重。
* 上下文并行 (CP)：基于 Ulysses Sequence Parallelism，通过 all-to-all 通信分布式处理长序列。
* 专家并行 (EP)：基于 all-to-all + grouped_mm，支持 EP + ETP 2D 分片。

令人惊讶的是，实现并验证这样一个复杂的分布式系统，仅耗费了 1 人·月的工作量——在 32 天内通过累计 72 万行代码修改，完整实现了 Archon 引擎，并验证了其可训练千亿参数的 MoE 模型。

创造这一效率奇迹的秘诀，在于 AReaL 集成的一整套 AI 辅助开发体系，实现了复杂工程开发的高度自动化。

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元

这套驾驭 AI 编程的方法完全开源，旨在让每位开发者都能借助“专业团队”，在 AReaL 中加速自己的 Agent RL 应用开发：
1. 配置领域专家 Agents：为 AReaL 各核心模块配置具备模块级架构认知的 Agents，在代码修改时提供上下文相关的精准指导。
2. 引入命令驱动的引导式工作流：通过预设的指令将常见开发任务流程化、标准化，使开发范式从“手写实现”转向“声明需求”，由 AI 自动完成常见且耗时的运维任务。
3. 实现全流程自动化：在真实开发场景中，由特定 Agent 全程自动化完成任务规划、代码生成、自动校验到 PR 创建。

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元

这套 AI 辅助开发体系不仅加速了 Archon 引擎的落地，也释放出一个清晰信号：AI 辅助编程已不仅是效率工具，更具备了深度参与复杂系统开发的实际生产力。这一“用 AI 构建训练 AI 的工具”的工程实践，重新定义了效率边界。

相应地，软件工程的角色分工正在发生深刻重构。人类开发者可以将更多精力从具体实现和重复性细节中解放出来，转向“明确需求、设计系统”等决策性工作；而 AI 则更多地承担流程固定、规则明确的工程落地任务。

在此范式变革下，原本重工程、重经验的 Agentic RL 有望随着开发门槛的系统性降低，走向更广泛的开发者群体。

结语

如果说过去一两年，行业主要精力集中于教 Agent“如何做事”——即通过更好的工具调用、更复杂的工作流编排和更精细的提示词工程，让 Agent 逐步完成任务。那么下一阶段，“如何让 Agent 自我进化”将成为重中之重。

正因如此，以 RL 为代表的系统化训练，正从过去的加分项逐渐转变为决定 Agent 能力上限的关键变量。

在此重要转折点，AReaL v1.0 为行业提供了一个兼具易用性、可靠性和强扩展性的开源 Agentic RL 范本：在应用层保持开放与兼容，轻松接入不同 Agent 框架；在引擎层深度优化，极致压榨训练效率与资源利用率。

未来，AReaL 团队将继续在系统组件可用性、Archon 引擎生产效率、AI 辅助开发能力以及 VLM/Omni 模型 Agent 训练等四个方向持续发力，致力于打造成为 Agentic AI 时代的高性能 RL 运行时底座。

当训练框架变得足够简单，当 Agent 的接入方式足够统一，当 AI 能够深度辅助底层系统的开发，Agentic RL 的大规模落地必将跨越少数顶尖团队的门槛，成为更普及的大众开发者利器。这正是“技术民主化”的核心要旨。

随着此类高性能底座的日益成熟，Agent 有望加速跨越仅能跑通 Demo 的初级阶段，真正开启持续、自主、规模化进化的新纪元。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/24026

AReaL v1.0发布：一键接入RL训练，OpenClaw等Agent框架迎来强化学习新纪元

零代码接入 OpenClaw 训练

~/.zeroclaw/config.toml

架构破局：以「异步训练」与「代理网关」实现自我进化

用 AI 重构引擎：AI 基础设施的工程范式革新

结语

相关推荐

用鸿蒙打造儿童教育新体验：《声趣国旗通》背后的技术实践

GitHub宝藏项目合集：从论文配图到AI Agent，7款效率神器助你提升开发效率

港大开源CLI-Anything：一条命令让任何软件变身AI Agent可操控工具，4天狂揽1.5万Star

MagicSkills：AI Agent世界的npm来了！北大开源项目统一管理Agent技能，实现“写一次、到处用”

OpenClaw重大更新：插件生态转向自有市场，模型能力全面升级