机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。

具身智能领域的Physical Intelligence公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

过去一年,机器人已经能干不少粗略的活儿,比如叠衣服、端盘子。但是,它们非常不擅长高精度的工作。例如「拿起螺丝刀」很容易,但「把螺丝刀严丝合缝地对准一颗极小的螺丝」却极难。而在真实的工厂环境中,这种对于精准、灵巧和速度的追求恰恰是最不能妥协的,也是体力劳动中最难的部分。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

以往,若想让机器人学会这种精细活,工程师需要将机器人庞大的「主脑」(即处理所有信息的大模型)重新训练一遍,这不仅计算量巨大,而且效率低下。

Physical Intelligence提出了一种新思路:不重新训练整个主脑,而是为其添加一个专门负责精细动作的「外挂」模块——RL token。

依靠这个方法,机器人在每项任务中最精细步骤上的速度可提升至原来的3倍,甚至比人类远程操控机器人还要快。

Physical Intelligence表示,「从经验中不断进步」将是未来真实世界机器人大模型的核心能力,而RLT技术让他们的模型离「直接在岗位上边干边学」的目标更近了一步。

技术原理

Physical Intelligence此前已证明,通过一种名为Recap的方法,视觉语言动作模型能够借助强化学习从经验中学习。但Recap主要解决长周期任务的大规模强化学习问题;而在实际应用中,更常见的需求是让机器人利用几小时甚至几分钟的数据,快速攻克某项技能中特别困难的个别环节。

例如,若一个机器人需要极其精准地用螺丝刀进行组装,完全可以只微调「把螺丝刀对准螺丝」这一个具体动作。这比将整个VLA大模型端到端微调一遍要高效得多。这种精准的自适应训练,甚至可以在机器人正式部署时边干边学。

理想情况下,这种能力进化应在机器人的「大脑」内部实时进行,并能从每次尝试中提取最大学习经验。但要在几小时内端到端训练整个庞大的VLA模型,无论从算力还是实操角度看都极具挑战。

Physical Intelligence的核心灵感是:让VLA模型输出一个「RL token」,它如同VLA内部复杂思考过程的「极简摘要」。随后,将这个RL token作为输入,馈送给一个可进行实时强化学习微调的小型模型。

这个RL token会被交给负责输出动作的Actor网络和负责评估打分的Critic网络使用。这两个网络采用一种节省数据的离策略强化学习方法进行训练。由于Actor和Critic处理的是高度压缩的摘要信息,它们可被设计成非常轻量级的神经网络,直接在机器人本体上训练,每秒能更新数百次。这种高响应速度使得强化学习能在机器人每次试错后立即调整其行为。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

RLT技术首先对VLA进行改造:加入一个由编码器和解码器组成的Transformer结构。该结构被训练通过一个「信息瓶颈」来预测大模型的内部特征,从而压缩出极简的RL token。这个token浓缩了当前观察画面中强化学习Actor和Critic所需的所有关键信息。如此一来,即便很小的Actor和Critic网络,也能基于大模型的丰富内部理解来学习改进动作。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

获得RL token后,研究者只需让机器人在现实中积累几小时甚至几分钟的数据,即可通过在线强化学习训练小型的Actor和Critic网络。为确保过程高效,他们进行了精心设计:在线强化学习的Actor网络必须在与VLA相同的动作空间中工作,与VLA的先验行为保持一致,并能从有限的真实世界数据中高效学习。

具体方法如下:

  1. 预测「动作块」:强化学习策略预测的是一连串的「动作块」,这与VLA习惯的动作结构保持一致,而非控制底层的单个细微操作。这使得在线策略能直接调整任务中具有时间跨度的重要连贯动作。
  2. 学会「修改」而非「推翻」:Actor网络会接收VLA预测的动作作为输入,因此它学习的是如何「编辑修改」VLA的动作,而非全盘替换。策略更新的方向被限制在参考动作附近,这样当VLA原动作可靠时,机器人的探索不会失控;仅当Critic网络明确发现更好方案时,才会偏离原计划。
  3. 防止「抄作业」:为避免小模型在训练初期只知照抄VLA动作,引入了「参考动作dropout」机制,迫使Actor网络保持独立生成动作的能力。
  4. 融入人类干预:可选择性地让人类直接介入强化学习更新过程。当机器人卡壳或犯错时,人类的纠正动作会被直接整合并反馈到训练中。

这些设计使得在线强化学习成为一个可复用的「通用配方」。它无需针对具体任务进行专门工程设计,即可直接挂载到预训练的VLA模型上,应对各种不同任务。

攻克精细操作的「最后关键一毫米」

研究者在四项需要极高精度的挑战性任务上测试了RLT:用电动螺丝刀将微小的M3螺丝拧入机械臂、系紧扎带、插入网线以及插入电源线。

在这些任务中,通用的基础模型通常能很好地完成大部分「粗略」动作,但任务最终的成功与速度,往往取决于一个需要大量物理接触的关键阶段。在此阶段,位置、角度或时机的微小偏差都可能导致彻底失败。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

以拧螺丝为例,机器人必须在位置和旋转角度上都达到亚毫米级的精准度,才能使螺丝刀尖完美嵌入螺丝槽。螺丝刀尖距离机器人的抓取点约10厘米,手腕的微小偏差在刀尖处会被放大。而且,从机器人手腕摄像头的视角看,这些细微的接触过程甚至难以清晰观察。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

在这四个任务中,基础的VLA大模型在初期表现良好(如稳稳拿起螺丝刀或扎带),但在最需要精度的阶段就会失败。RLT技术专门为解决此痛点设计:研究者利用在线强化学习专门攻克这些「硬骨头」环节。实际测试表明,机器人仅利用15分钟的真实世界数据,就能优化每个动作中最难的部分。

他们将RLT应用于这四项任务的关键阶段,评估了其在两种场景下的效果:一是短暂的关键插入动作(插线和插网线),二是时间跨度更长、变化更多的完整任务。

结果显示,在所有四项任务中,与基础模型相比,RLT在速度和成功率上均有显著提升。下图展示了训练前后的性能对比,指标为「吞吐量」(即每10分钟内成功完成任务的次数)。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

下方的进度曲线图展示了RLT在“插网线”任务上的吞吐量提升过程。整个训练耗时约2小时,其中机器人实际执行动作的数据仅占15分钟,其余时间主要用于设备复位重置及其他计算开销。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

值得注意的是,RLT不仅在性能上超越基础模型,其在“插网线”任务中的执行速度甚至超过了人类远程操作。如柱状图所示,在最终强化学习策略的测试中,有一半的尝试速度都快于数据集中所有人类示范操作。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

这表明,机器人在实际工业场景中应用的进程可能比预期更快。

机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26688

(0)
上一篇 2026年3月21日 上午12:00
下一篇 2026年3月21日 上午12:09

相关推荐

  • 美国AI霸权保卫战:从“创世纪行动”到全球算力联盟的全面布局

    在当今全球科技竞争的格局中,人工智能已成为国家战略的核心战场。美国政府近期的一系列举措,特别是代号为“创世纪行动”的战略部署,标志着AI竞赛已从单纯的技术迭代升级为国家意志主导的全面对抗。这一行动不仅涉及政策调整、法律手段,更延伸到地缘政治、产业重组和能源战略等多个维度,展现出美国在AI领域维护霸权的系统性布局。 “创世纪行动”的核心逻辑在于集中力量突破AI…

    2025年11月21日
    34700
  • AI Ping:大模型API的智能导航与评测平台,终结选型混沌时代

    衡宇 发自 凹非寺 比面对大模型黑盒更让人抓瞎的事情,就是要去选既靠谱、性价比又高的API服务。 这几乎是每一个涉足AI应用开发的团队都会经历的至暗时刻。 同一个模型架构在不同的供应商手里,不仅价格上有出入,延迟、稳定性、吞吐量等用户关心的指标,波动幅度巨大。 在API调用动辄几十万、上百万token的时代,API选型居然变成了一件靠经验反复试错的事儿。 这…

    2026年2月2日
    60500
  • 从折纸到工程奇迹:14岁华裔少年如何用三浦折叠突破应急避难所设计

    在传统认知中,折纸往往被视为一种艺术或娱乐活动,但14岁的华裔少年迈尔斯·吴(Miles Wu)却通过这项古老技艺,在工程科学领域掀起了一场小型革命。今年10月,他凭借一项创新的折纸设计,在竞争激烈的赛默飞科学青少年创新挑战赛(JIC)中脱颖而出,斩获最高奖项及2.5万美元奖金。这一成就不仅为他赢得了“天才少年”的称号,更揭示了折纸在结构工程中的巨大潜力。 …

    2025年12月6日
    50400
  • Runway发布GWM-1世界模型全家桶:从环境模拟到机器人操作的全栈式AI解决方案

    近日,知名AI视频生成公司Runway正式发布了其首个通用世界模型GWM-1,标志着该公司在AI内容生成领域迈出了从单一视频生成向复杂世界模拟的关键一步。这一发布不仅展示了Runway在生成式AI技术上的深厚积累,更预示着AI技术正在从内容创作工具向物理世界模拟平台演进。 GWM-1基于Runway最新的视频生成模型Gen-4.5构建,但采用了完全不同的技术…

    2025年12月13日
    42800
  • 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

    从模型重编程、参数高效微调,到大模型时代的提示调优、指令提示与上下文学习,研究者和从业者始终在探索一个核心问题:如何在尽量不修改模型参数的前提下,最大限度地复用预训练模型的能力? 过去几年,这类方法在不同研究社区中以相对独立的形式快速发展——有的源于对抗鲁棒性与迁移学习领域,有的专注于下游任务适配,有的则成为大模型对齐与应用的基础工具。然而,这些看似分散的技…

    2026年1月24日
    38300