
过去一周,一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体,其体验过程颇具戏剧性:从用户争相部署,到因使用问题(如账号安全、文件误操作)而匆忙卸载,周期可能短至一周。
那么,如何让此类 AI 智能体在使用中持续改进,而非引发问题?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)及其团队成员(包括王胤杰博士等人)提出了一种解决方案,旨在让智能体越用越智能。

图 | 杨灵(来源:受访者)
近日,杨灵团队发布了一个名为 OpenClaw-RL 的开源框架。其核心逻辑简洁而深刻:用户与 AI 的每一次自然对话,本身就是高质量的训练数据。该框架允许 AI 在正常服务用户的同时,通过四个完全解耦、异步运行的模块在后台持续学习:策略服务、轨迹收集、过程奖励评估与参数训练,各模块互不阻塞。

(来源:https://arxiv.org/pdf/2603.10165)
杨灵表示:“我们的研究聚焦于个性化场景下的在线强化学习。这一方向此前缺乏系统性研究,主要难点在于缺少自然产生的交互数据来构建可复现的基准测试,工业界也缺乏端到端的训练闭环。”
“我们的工作相当于为该方向提供了第一套完整的基础设施和方法论,从数据收集、信号提取到策略优化,形成了一个可落地的闭环,同时也引入了新的研究视角。”他补充道。
该系统的关键洞察在于重新利用了长期被忽视的资源:AI 每执行一个动作后收到的“下一状态”——包括用户的回复、工具的输出、测试结果或界面变化等。传统系统仅将这些信号作为下一轮对话的上下文,而 OpenClaw-RL 则认为,它们本质上是对上一步动作质量最直接、最丰富的反馈,无需人工标注即可转化为强化学习的训练信号。

(来源:https://arxiv.org/pdf/2603.10165)
这些信号蕴含两种不同类型的信息:
1. 评估性信号
用户明确的满意/不满意、重复提问(可能暗示不满)、任务测试通过等,都被一个称为“过程奖励模型”(Process Reward Model, PRM)的模块捕捉。为提高鲁棒性,系统对每一步动作进行多次独立评估,并通过多数表决机制将其转化为+1(好)、-1(差)或0(中性)的标量奖励。与传统方法仅在任务结束时给出单一奖励不同,这种分步评估使训练信号密度提升了一个数量级,让模型能精确识别具体步骤的对错。
2. 指导性信号
当用户给出如“你应该先检查文件再编辑”的反馈时,这不仅是差评,更包含了具体的纠正指导。单纯的标量奖励无法传递这种细粒度信息。为此,团队设计了“基于事后提示的在线策略蒸馏”(Hindsight-Guided On-Policy Distillation, OPD)方法。其核心思路是:当用户回复包含纠正信息时,系统从中提炼出一条“事后提示”(如“应先检查文件是否存在”),将其附加到原始对话历史中,形成一个“增强版提示”。
关键在于,系统并不让模型重新生成回答,而是让同一模型在增强版提示下,重新评估其原始回答中每个词的生成概率。如果某个词在“知晓提示后”的概率升高,说明该词更符合正确方向,应被强化;反之则应被抑制。这种逐词级别的方向性信号,比简单的“好/坏”分数包含更丰富的修正信息。
两种信号互为补充:评估性信号覆盖广、粒度粗但无处不在;指导性信号出现频率较低,但信息密度极高。论文实验表明,结合两者使用效果显著优于单独使用任何一种。

(来源:https://arxiv.org/pdf/2603.10165)
研究团队在两个模拟场景中进行了测试:
* 场景一:学生使用 AI 辅助完成作业(要求不被识别出由 AI 生成)。
* 场景二:教师使用 AI 批改作业(要求评语具体且友善)。
在批改作业的例子中,初始 AI 仅会给出“正确,做得很好”这类通用评语。经过24轮优化后,它能生成如“你将3周转为21天这一步很多同学会漏掉,但你处理得很准确”这样具体、真实的评语,并辅以表情符号,更符合人类交流习惯。
OpenClaw-RL 在工程上的一个重要突破是将 AI 训练从“停服更新”转变为“边用边学”。系统采用全异步架构:策略服务持续响应用户请求,轨迹收集器同步截取数据,奖励评估模块并发打分,训练器在后台更新参数。参数更新完成后,系统短暂暂停数据提交、加载新权重,随后无缝恢复服务,用户端感知为零中断。
团队还将 OpenClaw-RL 应用于更复杂的通用智能体场景,涵盖终端操作(128并行环境)、图形界面操作(64个)、代码编写(64个)和工具调用(32个)四类任务。在工具调用任务上,结合过程奖励与结果奖励,模型准确率从基线的17%提升至76%,实现了超过4倍的性能跃升。

(来源:https://arxiv.org/pdf/2603.10165)
杨灵指出,该框架的一个重要发现是:来自不同智能体场景(终端、GUI、代码、工具调用)的交互数据可以在同一框架下联合训练,且模型在各维度上均呈现整体提升趋势。“这意味着统一的智能体强化学习训练是可行的,”杨灵说,“这对于构建真正通用的 AI 智能体至关重要,因为通用智能体必须应对多样化的任务、场景和需求。据我们所知,这种跨场景联合训练视角此前尚未被系统性探索。”

(来源:https://arxiv.org/pdf/2603.10165)
“这项研究从构思到开源实现仅用了三天。当然,必要的沟通不可或缺,但在当前时代,某些想法从诞生到实现的速度可以非常快。”杨灵表示。
他进一步补充:“然而,在这个追求速度的时代,对问题的判断力和研究品味反而更加重要。选择研究什么、不研究什么,能否识别具有长期价值的问题,这些决定了一个研究方向能走多远。执行力同样关键,这不仅指模型能否取得好的量化指标,更在于整个系统能否真正落地并被有效使用。”
关于应用前景,杨灵认为 OpenClaw-RL 有两个极具价值的落地方向:
一是隐私敏感的本地化场景。例如政府部门、金融机构和医疗机构,这些场景无法将数据传至外部大模型 API,但又有强烈的 AI 智能体需求。OpenClaw-RL 提供了一条可行路径:在本地部署模型,通过日常交互持续优化,确保数据全程不离开本地。
二是工业级的大规模智能体训练。“目前许多开源智能体训练框架仅针对单一场景优化,”杨灵说,“我们的系统从设计之初就支持跨场景,终端、GUI、代码、工具调用可在同一框架中联合训练。这意味着其架构天然适合扩展到工业规模的多场景智能体优化。”
论文发布后,杨灵收到了来自学术界和工业界的诸多合作邀约。团队计划沿两条主线并行推进。
研究纵深:团队希望将“下一状态学习”这一范式做深做透。其应用将不限于策略优化,还将拓展至智能体的记忆系统与技能积累机制。最终目标是构建一套能在持续交互中实现自主进化的完整智能体学习体系。
工程与应用:团队计划在更大规模、更复杂的真实场景中验证框架的可扩展性,并与有实际智能体部署需求的企业展开合作,推动技术落地。
谈及下一步规划,杨灵表示:
一方面,我们希望大幅降低使用门槛,让个性化智能体训练变得开箱即用。目前许多用户连环境配置都面临困难,更不用说运行强化学习任务。我们将持续改善文档与工具链,目标是让普通开发者也能便捷地使用这套技术。
另一方面,是“下一状态学习”范式本身的纵深推进。目前我们主要挖掘了其中的评估性信号和指导性信号,但“下一状态”中还蕴含着预测性信号——即智能体能否学会预判自身动作将导致何种后果。如果这一层能力得以打通,智能体将不再被动等待环境反馈,而是能主动规避已知的失败模式。
此外,这套范式天然具备跨场景的潜力。对话、工具调用、代码编写、图形界面操作这四类任务产生的“下一状态”虽然形态各异,但都可以纳入同一套学习框架中进行统一处理与优化。这是一个非常有潜力的方向,我们正在积极推进。
参考资料:
– 相关论文:https://arxiv.org/pdf/2603.10165
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25994


