让AI聊天助手仅仅完成任务已不够,现在,开发者正致力于让 AI实现自我进化。
关键之处在于,这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统,为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集,也无需人工微调,旨在让AI在与用户的日常对话中持续学习、自主变强。

其核心在于 将用户与AI的自然对话直接转化为训练数据。整个学习循环在后台自动完成,不影响前端的正常交互。
用户可照常与AI对话,MetaClaw则会在后台拦截交互过程,为每一轮对话进行评分,并通过在线微调持续优化AI的决策策略。
系统具备“吃一堑长一智”的能力。若AI在某次交互中表现不佳,MetaClaw会自动分析完整的交互轨迹,定位问题根源,并据此 自动生成一项新技能 存入技能库。当未来遇到类似场景时,相关技能会被精准检索并注入系统提示,从而避免重复犯错。
核心机制:技能注入与技能进化
该系统基于Kimi-2.5模型构建,同时提供了Qwen3-4B作为轻量级替代方案,以适应资源有限的设备。
其核心是自研的 SkillRL(技能增强强化学习)框架,本质上是 技能注入 与 技能进化 的组合策略。
- 技能注入:在每轮对话中精准匹配并应用相关技能指令,使AI能即时优化表现,无需等待训练周期结束。
- 技能进化:使AI从被动接收技能转变为主动生成技能,让技能库在使用中不断丰富与迭代,实现能力的持续增长。

降低门槛:云端训练与部署分离
最引人注目的特性是其 不依赖本地GPU集群,也无需自行维护 的设定。
MetaClaw将所有的训练任务都托管至 Tinker云平台,实现了训练与部署的彻底分离。只要设备能够连接网络,即可运行整个系统,用户无需担忧算力资源,也无需专门的工程团队进行运维。
这一设计极大降低了AI持续学习的门槛,使得个人开发者也能轻松培育出具备进化能力的 。
此外,MetaClaw在细节设计上充分考虑了开发者的实际需求。
其 异步架构与双学习模式,将服务响应、奖励建模和模型训练解耦。AI可以一边为用户提供实时回复,后台一边进行对话评分与策略优化,实现“工作”与“学习”并行不悖。
学习模式也提供了灵活性:追求轻量化可选择强化学习,从用户的隐式反馈中优化;追求深度提升则可选用在线策略蒸馏,结合高质量文本反馈进行进阶训练。
快速上手三步曲
使用流程极为简洁,仅需三步:
- 安装依赖:安装基础服务、大模型相关库以及关键的云端LoRA训练SDK。
bash
pip install fastapi uvicorn httpx openai transformers
pip install tinker tinker-cookbook - 运行配置脚本:将OpenClaw的网关指向MetaClaw代理(推荐使用Kimi-2.5配置)。
bash
bash openclaw_model_kimi.sh - 设置API密钥并启动训练:配置Tinker云平台密钥,运行训练脚本。
bash
export TINKER_API_KEY="your_api_key_here"
cd /path/to/metaclaw
python examples/run_conversation_rl.py
完成以上步骤后,用户只需像平常一样与智能体对话,MetaClaw便会自动收集对话轮次、进行评分并训练模型。每当积累足够批量的样本,系统便会执行一次模型权重的热替换,全程无需人工干预。
若需启用特定功能,可在MetaClawConfig中进行配置:
* 启用技能注入:python
config = MetaClawConfig(use_skills=True)
* 启用技能进化(以GPT-5.2为例):python
config = MetaClawConfig(
use_skills=True,
enable_skill_evolution=True,
azure_openai_deployment="gpt-5.2",
)
同时需配置相应的Azure OpenAI密钥与终端地址。
所有配置项,包括模型选择、LoRA参数、批次大小、训练步数及损失函数类型等,均集中于MetaClawConfig中,清晰明了。

MetaClaw项目由 姚骅修(电子科技大学校友,现任北卡罗来纳大学教堂山分校计算机科学系助理教授,曾任斯坦福AI实验室博士后)领导,其研究方向聚焦于智能体与具身人工智能。
- 项目地址:https://github.com/aiming-lab/MetaClaw
- 参考链接:
- https://x.com/BoWang87/status/2031094971630235941
- https://x.com/HuaxiuYaoML/status/2031069599651729905
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25290
