机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。

具身智能领域的Physical Intelligence公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

过去一年,机器人已经能干不少粗略的活儿,比如叠衣服、端盘子。但是,它们非常不擅长高精度的工作。例如「拿起螺丝刀」很容易,但「把螺丝刀严丝合缝地对准一颗极小的螺丝」却极难。而在真实的工厂环境中,这种对于精准、灵巧和速度的追求恰恰是最不能妥协的,也是体力劳动中最难的部分。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

以往,若想让机器人学会这种精细活,工程师需要将机器人庞大的「主脑」(即处理所有信息的大模型)重新训练一遍,这不仅计算量巨大,而且效率低下。

Physical Intelligence提出了一种新思路:不重新训练整个主脑,而是为其添加一个专门负责精细动作的「外挂」模块——RL token。

依靠这个方法,机器人在每项任务中最精细步骤上的速度可提升至原来的3倍,甚至比人类远程操控机器人还要快。

Physical Intelligence表示,「从经验中不断进步」将是未来真实世界机器人大模型的核心能力,而RLT技术让他们的模型离「直接在岗位上边干边学」的目标更近了一步。

技术原理

Physical Intelligence此前已证明,通过一种名为Recap的方法,视觉语言动作模型能够借助强化学习从经验中学习。但Recap主要解决长周期任务的大规模强化学习问题;而在实际应用中,更常见的需求是让机器人利用几小时甚至几分钟的数据,快速攻克某项技能中特别困难的个别环节。

例如,若一个机器人需要极其精准地用螺丝刀进行组装,完全可以只微调「把螺丝刀对准螺丝」这一个具体动作。这比将整个VLA大模型端到端微调一遍要高效得多。这种精准的自适应训练,甚至可以在机器人正式部署时边干边学。

理想情况下,这种能力进化应在机器人的「大脑」内部实时进行,并能从每次尝试中提取最大学习经验。但要在几小时内端到端训练整个庞大的VLA模型,无论从算力还是实操角度看都极具挑战。

Physical Intelligence的核心灵感是:让VLA模型输出一个「RL token」,它如同VLA内部复杂思考过程的「极简摘要」。随后,将这个RL token作为输入,馈送给一个可进行实时强化学习微调的小型模型。

这个RL token会被交给负责输出动作的Actor网络和负责评估打分的Critic网络使用。这两个网络采用一种节省数据的离策略强化学习方法进行训练。由于Actor和Critic处理的是高度压缩的摘要信息,它们可被设计成非常轻量级的神经网络,直接在机器人本体上训练,每秒能更新数百次。这种高响应速度使得强化学习能在机器人每次试错后立即调整其行为。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

RLT技术首先对VLA进行改造:加入一个由编码器和解码器组成的Transformer结构。该结构被训练通过一个「信息瓶颈」来预测大模型的内部特征,从而压缩出极简的RL token。这个token浓缩了当前观察画面中强化学习Actor和Critic所需的所有关键信息。如此一来,即便很小的Actor和Critic网络,也能基于大模型的丰富内部理解来学习改进动作。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

获得RL token后,研究者只需让机器人在现实中积累几小时甚至几分钟的数据,即可通过在线强化学习训练小型的Actor和Critic网络。为确保过程高效,他们进行了精心设计:在线强化学习的Actor网络必须在与VLA相同的动作空间中工作,与VLA的先验行为保持一致,并能从有限的真实世界数据中高效学习。

具体方法如下:

  1. 预测「动作块」:强化学习策略预测的是一连串的「动作块」,这与VLA习惯的动作结构保持一致,而非控制底层的单个细微操作。这使得在线策略能直接调整任务中具有时间跨度的重要连贯动作。
  2. 学会「修改」而非「推翻」:Actor网络会接收VLA预测的动作作为输入,因此它学习的是如何「编辑修改」VLA的动作,而非全盘替换。策略更新的方向被限制在参考动作附近,这样当VLA原动作可靠时,机器人的探索不会失控;仅当Critic网络明确发现更好方案时,才会偏离原计划。
  3. 防止「抄作业」:为避免小模型在训练初期只知照抄VLA动作,引入了「参考动作dropout」机制,迫使Actor网络保持独立生成动作的能力。
  4. 融入人类干预:可选择性地让人类直接介入强化学习更新过程。当机器人卡壳或犯错时,人类的纠正动作会被直接整合并反馈到训练中。

这些设计使得在线强化学习成为一个可复用的「通用配方」。它无需针对具体任务进行专门工程设计,即可直接挂载到预训练的VLA模型上,应对各种不同任务。

攻克精细操作的「最后关键一毫米」

研究者在四项需要极高精度的挑战性任务上测试了RLT:用电动螺丝刀将微小的M3螺丝拧入机械臂、系紧扎带、插入网线以及插入电源线。

在这些任务中,通用的基础模型通常能很好地完成大部分「粗略」动作,但任务最终的成功与速度,往往取决于一个需要大量物理接触的关键阶段。在此阶段,位置、角度或时机的微小偏差都可能导致彻底失败。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

以拧螺丝为例,机器人必须在位置和旋转角度上都达到亚毫米级的精准度,才能使螺丝刀尖完美嵌入螺丝槽。螺丝刀尖距离机器人的抓取点约10厘米,手腕的微小偏差在刀尖处会被放大。而且,从机器人手腕摄像头的视角看,这些细微的接触过程甚至难以清晰观察。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

在这四个任务中,基础的VLA大模型在初期表现良好(如稳稳拿起螺丝刀或扎带),但在最需要精度的阶段就会失败。RLT技术专门为解决此痛点设计:研究者利用在线强化学习专门攻克这些「硬骨头」环节。实际测试表明,机器人仅利用15分钟的真实世界数据,就能优化每个动作中最难的部分。

他们将RLT应用于这四项任务的关键阶段,评估了其在两种场景下的效果:一是短暂的关键插入动作(插线和插网线),二是时间跨度更长、变化更多的完整任务。

结果显示,在所有四项任务中,与基础模型相比,RLT在速度和成功率上均有显著提升。下图展示了训练前后的性能对比,指标为「吞吐量」(即每10分钟内成功完成任务的次数)。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

下方的进度曲线图展示了RLT在“插网线”任务上的吞吐量提升过程。整个训练耗时约2小时,其中机器人实际执行动作的数据仅占15分钟,其余时间主要用于设备复位重置及其他计算开销。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

值得注意的是,RLT不仅在性能上超越基础模型,其在“插网线”任务中的执行速度甚至超过了人类远程操作。如柱状图所示,在最终强化学习策略的测试中,有一半的尝试速度都快于数据集中所有人类示范操作。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

这表明,机器人在实际工业场景中应用的进程可能比预期更快。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26688

(0)
上一篇 2026年3月21日 上午12:00
下一篇 2026年3月21日 上午12:09

相关推荐

  • 揭秘OpenAI Codex智能体循环:AI如何通过工具调用实现高效软件开发

    刚刚,OpenAI CEO 山姆・奥特曼在社交平台发布推文称:「从下周开始的接下来一个月,我们将会发布很多与 Codex 相关的激动人心的东西。」他尤其强调了网络安全这一主题。 如同奥特曼的许多推文一样,这条预告也引发了网友的广泛讨论: 似乎是响应奥特曼的预告,OpenAI 官方随后发布了一篇技术博客,标题为「揭秘 Codex 智能体循环」,深入剖析了 Co…

    2026年1月24日
    40300
  • Emu3.5:原生多模态世界模型的范式革命与第三种Scaling路径

    2025年,人工智能领域正经历一场从语言智能向物理世界智能的深刻范式转移。”世界模型”这一概念已从学术构想演变为科技巨头竞逐的核心战场,其目标在于构建能够理解、预测并生成动态物理环境的AI系统。谷歌的Genie 3凭借一句话生成720p实时模拟世界的能力,被业界喻为”游戏引擎2.0″;李飞飞团队推出的RTFM模…

    2025年11月3日
    30800
  • 深夜突发!通义千问负责人林俊旸宣布离职,阿里最年轻P10技术高管去向成谜

    深夜突发!通义千问负责人林俊旸宣布离职,阿里最年轻P10技术高管去向成谜 太突然了! 深夜,通义千问(Qwen)负责人林俊旸突然发布推文,宣布自己将离开Qwen团队。 截至目前,林俊旸尚未透露自己的去向和接任者,外界尚不清楚他是否也会离开阿里巴巴。 据内部知情人士透露,目前尚无直接接替林俊旸的人选,原因是「事发比较突然」。该知情人士表示:「主要感觉就是他的一…

    2026年3月4日
    31000
  • 重构AI记忆范式:GAM框架如何以动态搜索替代静态压缩,突破智能体长期记忆瓶颈

    在人工智能尤其是大模型驱动的智能体系统中,记忆机制一直是制约其长期任务执行与复杂推理能力的关键瓶颈。传统AI记忆系统普遍采用“压缩-摘要”模式,即将冗长的思维链、工具调用记录等历史轨迹压缩为简短的文本摘要以节省存储空间。这种做法的致命缺陷在于:信息保真度严重受损。如同将一本百科全书强行压缩成一张便利贴,当智能体后续需要回溯具体决策细节、工具参数或中间推理步骤…

    2025年11月27日
    29000
  • 超越谷歌Tesseract,全球OCR开源项目迎来新王 在OCR(光学字符识别)领域,谷歌旗下的Tesseract OCR曾是一座长期屹立的技术丰碑。这款诞生于近四十年前的开源项目,凭借其卓越的性能和广泛的适用性,长期占据GitHub全球OCR项目榜首。 然而,这一局面已被中国开源项目改写。由百度文心大模型衍生的PaddleOCR,以超过73,300个Sta…

    2026年3月31日
    29100