在线强化学习

MetaClaw：让AI聊天中自我进化，无需GPU集群的在线强化学习系统

让AI聊天助手仅仅完成任务已不够，现在，开发者正致力于让 AI实现自我进化。关键之处在于，这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统，为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集，也无需人工微调，旨在让AI在与用户的日常对话中持续学习、自主变强。其核心在于将用户与AI的自然对话直接转化为训…

2026年3月12日

258000

AI产业动态

VLA强化学习新范式：从星动纪元iRe-VLA到π*0.6的迭代式突破

在具身智能领域，视觉-语言-动作（VLA）模型正成为连接大语言模型与物理世界的关键桥梁。近期，Physical Intelligence发布的π*0.6论文与清华大学星动纪元团队的iRe-VLA研究，共同揭示了VLA模型通过在线强化学习实现自我改进的技术路径，标志着该领域从单纯模仿学习向自主探索的范式转变。 VLA模型的核心挑战在于如何将预训练的视觉-语言大…

2025年12月12日

218000