机器人拉拉链也得“动脑子”?北大等提出 LaST-R1:先想后做,成功率飙至 99.9%
机器人拉拉链,究竟需不需要“思考”?
过去几年,从 OpenVLA 到 π0、π0.5,具身大模型已经能让机器人将指令与动作流畅地串联起来。
但一旦物体位置偏移几厘米,或者光照条件稍有变化,它们往往就会“当场卡壳”。
究其根本,是因为这些机器人大多在玩一种“视觉映射游戏”:看到什么,就直接输出什么动作。
它们只是记住了运动轨迹,却没有真正理解背后的物理逻辑。
现在,一种让机器人“先想清楚,再稳定执行”的全新范式诞生了。
由至简动力、北京大学、香港中文大学联合提出的 LaST-R1,首次将隐空间中的物理推理 嵌入了强化学习的闭环。
同时,作为 LaST₀ 基座模型在物理世界的后训练范式,LaST₀ 首创了面向机器人的隐空间物理思维链推理,并已被 ICML 2026 Spotlight(top 2.2%)接收。

它的表现有多惊人?
- 仿真满分级别:在 LIBERO benchmark 上,仅需 1 条轨迹预热,平均成功率便飙升至 99.9%;
- 真机性能飞跃:在真实抓取、旋转等复杂任务中,比当前最强 SOTA 模型 π0.5 高出 22.5%;
- 强化“物理推理”:即使物体、背景或光照发生变化,它依然稳如磐石,不再是单纯的动作复刻,而是真正学会了在隐空间中进行“物理思考”。
那么,这个让机器人长出“物理大脑”的 LaST-R1,究竟是如何炼成的?
那个能让环境反馈同时优化“怎么想”和“怎么动”的 LAPO 算法,又隐藏着哪些玄机?
我们顺着这篇论文,深入挖掘了这套能让机器人“深思熟虑”的后训练黑科技。
具身大模型的隐形天花板:只会模仿,不懂物理
尽管从 OpenVLA 到 π0.5,具身大模型已经实现了图像、语言与动作的初步对齐。
但在实际落地中,工业界发现了一个致命的“幻觉”:
能模仿,不代表能在物理世界中泛化。
这导致了极其糟糕的泛化能力。
打个比方,机器人可能记住了 100 种拉拉链的轨迹,但只要拉链的角度偏转 15 度,或者光照发生变化,单纯依赖“观察→动作”的端到端映射就会失效。
核心问题在于,现有的 VLA 模型缺少一个“思考” 的中间层——即让机器人在行动之前,对物理世界进行推理。
过去,学术界也曾尝试引入思维链(CoT)来解决推理问题。
但对于机器人操作而言,语言推理往往太慢且颗粒度太粗,你很难用文字精准描述“拉链咬合时的细微阻力反馈”。
LaST-R1 的核心突破,就是放弃了低效的语言 CoT,转而在隐空间(Latent Space)中构建物理推理链。
它不再让机器人看到图像就“闭眼”输出动作,而是先在隐性空间里建模场景的结构、物体的物理关系以及未来的动态变化。
然而,要让机器人学会这种“思考”,仅靠静态的模仿学习(SFT)是不够的。
目前的强化学习(RL)方法大多像是一个只看结果的严厉教练:它只告诉机器人动作成没成功(优化 Action Space),却无法指导机器人“刚才那下你是怎么想的”。
针对这一痛点,该团队提出的 LAPO(Latent-to-Action Policy Optimization)算法,正式将“思考过程”拉进了强化学习的优化闭环。
它让环境反馈不仅优化动作,也优化机器人行动前的“物理思考”。
不只练“手”更要修“脑”:如何让机器人强化模型的物理推理?
近日,至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室,提出了一种面向机器人操作的自适应物理隐空间推理强化学习框架——
LaST-R1(Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning)。
它希望通过强化学习后训练,让具身大模型不仅学会生成动作,也学会在行动前,进行面向物理世界的隐空间推理。

△ LaST-R1 概览。
(a) 不同于仅严格优化动作的 vanilla RL 基线方法,
(b) 我们的方法利用 LAPO 联合优化自适应 latent CoT 与物理执行过程。通过连接认知推理与控制,LaST-R1 实现了
(c) 更快的收敛速度、更高的仿真成功率,
以及 (d) 更强的真实世界泛化能力。
与以往主要优化 action space(动作空间,即机器人所有可执行指令的集合)的具身大模型 RL 不同,LaST-R1 的核心思想是:
机器人不应只从图像和指令直接预测下一步动作,而应先在 latent space(隐空间,可以理解为机器人大脑里的“隐性认知层”)中理解场景结构、物体关系和物理动态,再生成更稳定、精准的动作。
换句话说:
LaST-R1 不只优化机器人的“手”,也优化它的“脑”。
具体来看,LaST-R1 构建了一个面向 latent reasoning-before-acting 策略的强化学习后训练框架,核心由三步组成:
1、物理隐空间推理建模(Physical Latent Reasoning)
- 传统具身大模型往往直接从 observation 生成 action,动作前缺少可建模、可优化的物理推理过程。
- LaST-R1 在模型推理中引入 latent CoT:生成动作前,先在 latent space 中建模当前场景、物体关系和未来物理动态。
- 相比语言推理,latent reasoning 更适合承载连续、高频、难以语言化的物理信息。
2、隐空间推理与动作生成的联合强化优化(Latent-to-Action Policy Optimization)
- 传统具身大模型 RL 多数只优化动作结果:哪个 action 带来更高 reward,就强化哪个 action。
- LaST-R1 提出 LAPO,把环境奖励同时作用于 latent reasoning 和 action generation:成功轨迹不仅强化正确动作,也强化动作之前的“好推理”;失败轨迹不只修正动作结果,也反向调整内部物理推理空间。
- 让 reward 真正塑造动作背后的 reasoning process。
3、自适应 latent CoT 推理机制(Adaptive Latent CoT)
- 不同任务决策需要不同长度的思考。
- LaST-R1 引入 adaptive latent CoT:简单状态下,模型可以快速结束推理并执行;拉拉链、擦花瓶、拧瓶盖等复杂接触式操作,则分配更长 reasoning horizon。
- 在交互中学会:什么时候该多想,什么时候该立刻执行。
LaST-R1 改变的是具身大模型后训练的优化对象:从只优化动作,转向同时优化动作背后的物理推理。
研究团队在仿真和真机环境中都进行了系统验证。
在仿真 LIBERO benchmark 上,LaST-R1 仅依赖 1 条轨迹 完成 warm-up,随后通过在线 RL 优化,最终取得 99.9% 平均成功率,并相比 Action-Only+PPO 展现出更快收敛和更高最终性能。
在真机部署中,LaST-R1 仅使用 30 条轨迹 warm-up,再通过 RL 后训练将平均成功率从 52.5% 提升到 93.75%,显著超过使用 100 条专家轨迹 的 π0.5(71.25%)。
更重要的是,在真实扰动条件下,LaST-R1 仍保持较小性能下降,说明其学习到的不是单一场景中的动作轨迹,而是更可迁移的空间语义和物理动态理解。
上述结果意味着,具身大模型强化学习的重点正在发生变化——
机器人不再只是通过 RL 学会更熟练地执行动作,而是开始通过 RL 学会更合理地进行物理推理。
LaST-R1 的意义,在于它提出了一种新的具身大模型后训练范式,能够让环境反馈同时塑造机器人的“思考方式”和“行动方式”。
一旦隐空间推理从模仿学习的“静态脚本”进化为强化学习的“演进核心”,机器人便能摆脱对演示数据的刻板复现。
通过反复尝试和错误交互,它们逐步强化了模型的物理推理能力。
这或许标志着具身大模型从“模仿”迈向“适应”的关键转折。
LaST-R1 框架详解

△ LaST-R1 框架结构。
(a) LaST-R1 是一个统一模型,输入为视觉观测和语言指令。视觉基础模型生成带有物理语义约束的潜在目标(latent targets),用于在生成动作前引导潜在思维链(latent CoT)推理。
(b) 在 LAPO 强化学习后训练阶段,LaST-R1 以闭环方式与环境互动,并将潜在向量、动作和奖励存储到回放缓冲区(rollout buffer)中,以联合重塑潜在空间和动作空间。此外,模型通过基于预测概率学习生成 token,实现自适应推理,从而根据任务动态调整推理长度。
(c) 通过 LAPO 方法,LaST-R1 能在多样化任务中形成自适应推理长度,提升泛化能力和执行稳定性。
整个 LaST-R1 框架可概括为三个关键步骤:先推理、再优化、动态决定思考时长。
第一阶段:行动前的潜在空间推理(Latent Reasoning-before-Acting)
面对当前的视觉观测和语言指令,LaST-R1 不会直接输出动作,而是先生成一段潜在空间推理嵌入(latent reasoning embeddings),作为行动前的“潜在空间物理思考”,用于建模物体关系、未来状态和操作动态。
随后,模型基于这些潜在推理(latent reasoning)并行生成动作令牌(action tokens)。
这一步解决的核心问题是:如何让动作生成建立在物理推理之上。
第二阶段:LAPO 同时优化潜在空间(latent)与动作(action)
LaST-R1 的核心算法是 LAPO(潜在空间到动作策略优化,Latent-to-Action Policy Optimization)。
传统具身大模型的强化学习主要优化动作,而 LAPO 将潜在推理也纳入强化学习目标,让环境奖励同时塑造“如何思考”和“如何行动”。
论文中最关键的是 潜在层级比率代理(latent-level ratio surrogate):
其中, 表示回放时旧策略生成的潜在序列, 表示当前策略重新生成的潜在序列, 控制潜在分布宽度。
直观理解:如果某条轨迹成功,LaST-R1 不仅会强化对应的动作,也会强化动作之前产生的“优质推理”。
接着,LAPO 将潜在向量和动作整合进统一的裁剪目标(clipped objective)中:
其中, 表示同时优化潜在推理和动作生成, 是优势估计,用于限制策略更新幅度。
最终,总训练目标为:
这意味着:LaST-R1 的强化学习后训练不仅优化机器人的动作结果,也在优化行动前的物理推理过程。
第三阶段:自适应潜在思维链(Adaptive Latent CoT)
不同任务需要的思考长度各不相同。
因此,LaST-R1 引入了自适应潜在思维链(Adaptive Latent CoT),通过 令牌让模型动态决定何时结束潜在推理并进入动作生成。
这旨在让机器人根据任务难度自适应分配推理预算。
换句话说,LaST-R1 不让机器人每步都固定思考相同时间,而是学会:在简单状态下快速执行,在复杂状态下多思考一步。
为了优化这个结束标识符令牌的自适应生成,训练目标需要额外加上 L_end。
实验结果分析
1、仿真实验:LIBERO 达到 99.9%

LaST-R1 在 LIBERO 基准测试中进行了系统评估,覆盖 Spatial、Object、Goal 和 Long 四个任务套件。实验在 一次性监督微调预热(one-shot SFT warm-up) 设置下进行,随后进入在线强化学习后训练。
结果显示,LaST-R1 在四个套件上分别达到 99.8%/100.0%/100.0%/99.8%,平均成功率达到 99.9%,超越了 OpenVLA-OFT、π0.5、SimpleVLA-RL 和 πRL 等强基线。
与仅优化动作空间的 Action-Only + PPO 相比,LaST-R1 + LAPO 收敛更快,最终成功率更高,这表明潜在推理与动作生成的联合优化能为强化学习提供更稳定的“认知缓冲区”,从而提升复杂长程操作能力。
2、真机实验:从 52.5% 提升至 93.75%

LaST-R1 在四个真实操作任务上进行了测试,覆盖单臂高精度插入、双臂协同、接触式擦拭和连续旋转等复杂物理交互。
为突出强化学习后训练效果,论文将其与 SOTA 模型 π0.5 对比:π0.5 使用 100 条专家轨迹进行监督微调,而 LaST-R1 仅使用 30 条轨迹进行预热,并通过强化学习后训练继续优化。
结果显示,LaST-R1 将真机平均成功率从预热后的 52.5% 提升到 93.75%,显著超过 π0.5 的 71.25%,说明其优势不仅存在于仿真环境,也能迁移到真实物理交互中,并形成更稳定的执行策略。
3、泛化实验:换物体、换背景、换光照,依然稳定

在 LIBERO 的分布外(OOD)设置中,研究团队采用 9 个已见任务进行在线强化学习,并保留 1 个未见任务做泛化测试。
结果显示,Action-Only + PPO 容易出现性能停滞甚至退化,而 LaST-R1 + LAPO 能在 OOD 任务上持续提升,这表明潜在推理能帮助模型学到更可迁移的空间语义和物理动态。

在真实世界中,论文进一步测试了未见物体、背景变化和光照条件三类扰动。
与 SFT π0.5 相比,LaST-R1 在这些变化下保持更小的性能下降,说明它并非简单记忆训练场景中的动作轨迹,而是形成了更鲁棒的物理推理与动作生成能力。
结语:具身大模型不仅要会行动,更要学会“思考推理”
LaST-R1 的意义,不仅在于将 LIBERO 平均成功率推至 99.9%,也不仅在于让真机任务成功率提升到 93.75%。
更重要的是,它提出了一种全新的具身大模型后训练范式:强化学习不应只优化机器人的动作,也应优化动作背后的物理推理过程。
过去,我们更关注机器人能否生成正确的动作。
现在,LaST-R1 在此基础上进一步追问:机器人能否在行动前进行正确的物理推理?
通过 LAPO,环境奖励可以直接塑造潜在推理空间;
通过自适应潜在思维链,机器人能根据任务难度动态调整思考长度。
这意味着,机器人不再只是复现演示数据中的动作轨迹,而是在交互中逐步强化模型的物理推理。
从这个角度看,LaST-R1 让具身大模型的强化学习从“看见就动”走向“先想明白,再稳定行动”。
当具身大模型开始在潜在空间中思考时,机器人距离真正的自主操作,也许又近了一步。
论文链接:https://arxiv.org/abs/2604.28192
项目主页:https://siriyep.github.io/last-r1/
代码链接:https://github.com/CHEN-H01/LaST-R1
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34173

