都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。
具身智能领域的Physical Intelligence公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。


过去一年,机器人已经能干不少粗略的活儿,比如叠衣服、端盘子。但是,它们非常不擅长高精度的工作。例如「拿起螺丝刀」很容易,但「把螺丝刀严丝合缝地对准一颗极小的螺丝」却极难。而在真实的工厂环境中,这种对于精准、灵巧和速度的追求恰恰是最不能妥协的,也是体力劳动中最难的部分。

以往,若想让机器人学会这种精细活,工程师需要将机器人庞大的「主脑」(即处理所有信息的大模型)重新训练一遍,这不仅计算量巨大,而且效率低下。
Physical Intelligence提出了一种新思路:不重新训练整个主脑,而是为其添加一个专门负责精细动作的「外挂」模块——RL token。
依靠这个方法,机器人在每项任务中最精细步骤上的速度可提升至原来的3倍,甚至比人类远程操控机器人还要快。
Physical Intelligence表示,「从经验中不断进步」将是未来真实世界机器人大模型的核心能力,而RLT技术让他们的模型离「直接在岗位上边干边学」的目标更近了一步。
技术原理
Physical Intelligence此前已证明,通过一种名为Recap的方法,视觉语言动作模型能够借助强化学习从经验中学习。但Recap主要解决长周期任务的大规模强化学习问题;而在实际应用中,更常见的需求是让机器人利用几小时甚至几分钟的数据,快速攻克某项技能中特别困难的个别环节。
例如,若一个机器人需要极其精准地用螺丝刀进行组装,完全可以只微调「把螺丝刀对准螺丝」这一个具体动作。这比将整个VLA大模型端到端微调一遍要高效得多。这种精准的自适应训练,甚至可以在机器人正式部署时边干边学。
理想情况下,这种能力进化应在机器人的「大脑」内部实时进行,并能从每次尝试中提取最大学习经验。但要在几小时内端到端训练整个庞大的VLA模型,无论从算力还是实操角度看都极具挑战。
Physical Intelligence的核心灵感是:让VLA模型输出一个「RL token」,它如同VLA内部复杂思考过程的「极简摘要」。随后,将这个RL token作为输入,馈送给一个可进行实时强化学习微调的小型模型。
这个RL token会被交给负责输出动作的Actor网络和负责评估打分的Critic网络使用。这两个网络采用一种节省数据的离策略强化学习方法进行训练。由于Actor和Critic处理的是高度压缩的摘要信息,它们可被设计成非常轻量级的神经网络,直接在机器人本体上训练,每秒能更新数百次。这种高响应速度使得强化学习能在机器人每次试错后立即调整其行为。

RLT技术首先对VLA进行改造:加入一个由编码器和解码器组成的Transformer结构。该结构被训练通过一个「信息瓶颈」来预测大模型的内部特征,从而压缩出极简的RL token。这个token浓缩了当前观察画面中强化学习Actor和Critic所需的所有关键信息。如此一来,即便很小的Actor和Critic网络,也能基于大模型的丰富内部理解来学习改进动作。

获得RL token后,研究者只需让机器人在现实中积累几小时甚至几分钟的数据,即可通过在线强化学习训练小型的Actor和Critic网络。为确保过程高效,他们进行了精心设计:在线强化学习的Actor网络必须在与VLA相同的动作空间中工作,与VLA的先验行为保持一致,并能从有限的真实世界数据中高效学习。
具体方法如下:
- 预测「动作块」:强化学习策略预测的是一连串的「动作块」,这与VLA习惯的动作结构保持一致,而非控制底层的单个细微操作。这使得在线策略能直接调整任务中具有时间跨度的重要连贯动作。
- 学会「修改」而非「推翻」:Actor网络会接收VLA预测的动作作为输入,因此它学习的是如何「编辑修改」VLA的动作,而非全盘替换。策略更新的方向被限制在参考动作附近,这样当VLA原动作可靠时,机器人的探索不会失控;仅当Critic网络明确发现更好方案时,才会偏离原计划。
- 防止「抄作业」:为避免小模型在训练初期只知照抄VLA动作,引入了「参考动作dropout」机制,迫使Actor网络保持独立生成动作的能力。
- 融入人类干预:可选择性地让人类直接介入强化学习更新过程。当机器人卡壳或犯错时,人类的纠正动作会被直接整合并反馈到训练中。
这些设计使得在线强化学习成为一个可复用的「通用配方」。它无需针对具体任务进行专门工程设计,即可直接挂载到预训练的VLA模型上,应对各种不同任务。
攻克精细操作的「最后关键一毫米」
研究者在四项需要极高精度的挑战性任务上测试了RLT:用电动螺丝刀将微小的M3螺丝拧入机械臂、系紧扎带、插入网线以及插入电源线。
在这些任务中,通用的基础模型通常能很好地完成大部分「粗略」动作,但任务最终的成功与速度,往往取决于一个需要大量物理接触的关键阶段。在此阶段,位置、角度或时机的微小偏差都可能导致彻底失败。


以拧螺丝为例,机器人必须在位置和旋转角度上都达到亚毫米级的精准度,才能使螺丝刀尖完美嵌入螺丝槽。螺丝刀尖距离机器人的抓取点约10厘米,手腕的微小偏差在刀尖处会被放大。而且,从机器人手腕摄像头的视角看,这些细微的接触过程甚至难以清晰观察。

在这四个任务中,基础的VLA大模型在初期表现良好(如稳稳拿起螺丝刀或扎带),但在最需要精度的阶段就会失败。RLT技术专门为解决此痛点设计:研究者利用在线强化学习专门攻克这些「硬骨头」环节。实际测试表明,机器人仅利用15分钟的真实世界数据,就能优化每个动作中最难的部分。
他们将RLT应用于这四项任务的关键阶段,评估了其在两种场景下的效果:一是短暂的关键插入动作(插线和插网线),二是时间跨度更长、变化更多的完整任务。
结果显示,在所有四项任务中,与基础模型相比,RLT在速度和成功率上均有显著提升。下图展示了训练前后的性能对比,指标为「吞吐量」(即每10分钟内成功完成任务的次数)。

下方的进度曲线图展示了RLT在“插网线”任务上的吞吐量提升过程。整个训练耗时约2小时,其中机器人实际执行动作的数据仅占15分钟,其余时间主要用于设备复位重置及其他计算开销。

值得注意的是,RLT不仅在性能上超越基础模型,其在“插网线”任务中的执行速度甚至超过了人类远程操作。如柱状图所示,在最终强化学习策略的测试中,有一半的尝试速度都快于数据集中所有人类示范操作。

这表明,机器人在实际工业场景中应用的进程可能比预期更快。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26688


