在线强化学习
-
MetaClaw:让AI聊天中自我进化,无需GPU集群的在线强化学习系统
让AI聊天助手仅仅完成任务已不够,现在,开发者正致力于让 AI实现自我进化。 关键之处在于,这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统,为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集,也无需人工微调,旨在让AI在与用户的日常对话中持续学习、自主变强。 其核心在于 将用户与AI的自然对话直接转化为训…
-
VLA强化学习新范式:从星动纪元iRe-VLA到π*0.6的迭代式突破
在具身智能领域,视觉-语言-动作(VLA)模型正成为连接大语言模型与物理世界的关键桥梁。近期,Physical Intelligence发布的π*0.6论文与清华大学星动纪元团队的iRe-VLA研究,共同揭示了VLA模型通过在线强化学习实现自我改进的技术路径,标志着该领域从单纯模仿学习向自主探索的范式转变。 VLA模型的核心挑战在于如何将预训练的视觉-语言大…
