RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

具身智能的发展中,视觉-语言-动作模型已成为通用操作任务的核心框架。然而,面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时,VLA模型仍面临两大根本性挑战:

  1. 模仿学习在推理过程中产生的长序列误差累积问题;
  2. 真机强化学习成本高昂,难以规模化部署。

针对这些挑战,香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思路是:通过构建一个组合式、多视角的世界模型,让机器人完全在“想象”的虚拟空间中进行强化学习,从而无需依赖大规模的真机交互。该方法在多项长程复杂任务中实现了性能的跨越式提升,部分任务成功率较现有最佳基线提升超过45%。

传统VLA落地的三重枷锁

VLA模型在实际落地时,主要受限于模仿学习的固有缺陷、真机强化学习的现实壁垒,以及现有世界模型的技术短板。

第一,模仿学习的暴露偏差
当前主流VLA模型依赖专家演示数据进行训练,本质上只学习了“成功路径”。这导致模型:
* 从未见过失败状态,缺乏纠错能力;
* 在长程任务中,微小的初始误差会随着执行步骤逐步放大,最终导致任务失败。

第二,真机强化学习的现实难题
理论上,强化学习可以弥补模仿学习的不足,但在真实物理世界中却面临三重约束:
* 样本效率低:需要海量的交互数据,训练周期漫长。
* 安全风险高:探索性操作极易导致机器人硬件磨损或损坏。
* 重置成本高:每次任务失败后,都需要人工介入恢复环境,效率极低。

第三,现有世界模型的能力短板
为弥合虚实差距,学界曾尝试使用生成式世界模型来模拟环境。但这类模型往往难以同时保证动作的可控性长程预测的一致性,容易出现画面失真或违背物理规律的情况,因此无法作为强化学习的可靠训练环境。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%
图:RISE框架概览。(a) 传统真机强化学习受限于硬件与重置成本;(b) RISE在组合式世界模型中进行在线学习;(c) 在真机任务上实现显著性能提升。

RISE的破局之道:组合式世界模型与想象空间自进化

RISE的核心创新在于,将物理环境的交互完全迁移到一个由组合式世界模型构建的“想象空间”中。通过虚实解耦的设计,既解决了世界模型的高保真模拟问题,又构建了一个高效的策略自进化闭环。

1. 组合式世界模型:解耦设计,兼顾模拟精度与评估能力
与传统单一模型不同,RISE将世界模型解耦为两个独立优化的模块:
* 可控动力学模型:作为“模拟器”,专注于高保真地模拟机器人动作带来的视觉状态变化,确保动作指令与视觉反馈的高度对齐。
* 进度价值模型:作为“裁判员”,负责评估想象轨迹的每一步价值。它融合了进度估计和时序差分学习,能为长程任务提供密集的奖励信号,并对细微失败保持敏感。

两个模块均使用包含成功与失败案例的数据进行训练,防止模型过拟合。

2. 想象空间自进化循环:三步实现无真机的策略迭代
在构建的高保真“思维沙盒”中,RISE运行一个完全在线的强化学习闭环:
* 第一步:推演。VLA策略与动力学模型交互,根据当前状态生成未来多种动作路径的视觉预测序列。
* 第二步:评估。进度价值模型对所有想象出的轨迹进行评分,区分高价值(成功)与低价值(失败)的动作路径。
* 第三步:训练。利用评估结果,通过流匹配目标更新VLA策略,使其持续强化成功路径、规避失败路径,实现自我进化。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

RISE架构解析:虚实解耦,让想象贴合物理规律

RISE的架构通过解耦与对齐,使虚拟的想象空间无限贴近真实物理世界。其核心逻辑是模型解耦建沙盒,轨迹迭代优策略

组合式世界模型的解耦设计,从根源上解决了模拟与评估不可兼得的问题。而想象空间的自进化闭环,则让强化学习的试错完全脱离真机:模型在同一初始状态下生成多种轨迹,通过“自我博弈”完成优化。这种方式不仅避免了真机试错的成本与风险,更让模型学会了从失败中恢复的关键能力。

实验验证:性能飙升、泛化性强

研究团队在动态积木分拣、背包装袋(柔性物体)、纸盒闭合(精细双臂协同)三大高难度真机长程任务上对RISE进行了系统评估。

性能大幅超越现有基线
相较于π₀.₅、RECAP、DSRL等先进基线,RISE在所有任务上均实现了成功率的大幅提升:
* 动态积木分拣:成功率从50%提升至85%
* 背包装袋:成功率从30%提升至85%,涨幅达45%。
* 纸盒闭合:成功率高达95%

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

组件必要性验证
消融实验表明,RISE的每一个核心模块都是性能提升的关键,移除任一组件都会导致效果显著下降。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%
RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

  • 移除 Task-Centric Batching 后,动力学模型的动作控制能力显著下降,导致任务完成率降低。
  • 移除 TD Learning 后,价值模型难以敏锐识别细微的失败状态,使得策略优化失去明确方向。
  • 脱离在线动作与在线状态更新,模型无法突破离线数据集的分布限制,导致泛化能力大幅减弱。

泛化与抗扰:超越机械模仿

RISE 训练出的策略不再机械复制专家数据,而是展现出从意外失败中自主恢复的智能行为:

  • 抗干扰恢复:当任务执行因人为干扰(如物体被推离原位、抓取意外滑落)而中断时,模型能够主动调整后续动作,从失败状态中恢复并最终完成任务。

  • 位置泛化:即使被操作物体(如待折叠的衣物、书包)的初始摆放位置发生变化,模型仍能精准完成任务,无需针对新位置进行重新训练。

生成质量:高保真的物理规律复现

在模型生成质量的定量与定性评估中,RISE 的动力学模型表现优于 Genie Envisioner、Cosmos 等基线模型:

  • 定量评估:在 Fréchet 视频距离(FVD)和端点误差(EPE)两项指标上均达到最优,表明其视频生成精度与动作跟随能力更佳。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

  • 定性评估:能够生成清晰、符合物理规律的多视角未来帧序列,避免了模糊、物体瞬移或动作不一致等问题。该表现在 Bridge、Galaxea、Agibot World 等多个大规模数据集上均保持一致。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

所提出的动力学模型能够合成具有高视觉保真度的连贯多视角视频序列,为强化学习提供了坚实的基础。以下视频片段按从上至下顺序排列:

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

模型生成清晰且物理一致的未来帧,而基线模型常出现模糊或物体瞬移等不符合物理规律的现象。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26175

(0)
上一篇 13小时前
下一篇 6小时前

相关推荐

  • Vibe Coding的进化:从概念狂欢到生产级革命,百度秒哒如何定义AI编程新范式

    2025年,当Vibe Coding被《柯林斯英语词典》正式收录为年度词汇时,这项技术已经完成了从技术圈层概念到全球性现象的蜕变。从Cursor估值逼近99亿美元,到谷歌收购Windsurf核心团队推出Antigravity;从海外Claude Code、v0、Lovable的持续迭代,到国内字节Trae、阿里Qcoder、百度Comate的全面布局——整个…

    2025年12月18日
    20300
  • 从零到一:HuggingFace超长技术博客揭示LLM训练实战全流程

    近期,HuggingFace发布了一份超过200页的技术博客,系统性地分享了训练先进大语言模型(LLM)的端到端经验。这份博客的核心价值在于直面LLM开发过程中的「混乱现实」,坦诚记录了哪些方法有效、哪些会失败,以及如何应对实际工程中遇到的陷阱。内容基于团队的实际项目经验,特别是他们近期使用384块H100 GPU训练3B参数模型SmolLM3的完整过程。 …

    2025年11月9日
    21800
  • 商汤医疗:以“医疗世界模型”重构智慧医院,半年融资10亿的AI医疗新范式

    在AI技术加速渗透医疗领域的当下,商汤医疗作为商汤集团“1+X”战略生态的核心延伸,在短短半年内累计融资规模已达10亿元,迅速跻身准独角兽行列。这一成绩不仅彰显了资本市场对AI医疗赛道的信心,更揭示了以“医疗世界模型”为核心的技术架构正在重塑智慧医院的未来图景。 商汤医疗的AI体系采用“通专融合”的技术路线,其核心是自研的医疗大语言模型“大医®”。这一模型在…

    2025年12月2日
    19600
  • AI生成Mermaid代码的渲染难题:beautiful-mermaid工具如何让图表在终端中“活”起来

    现在用 AI 工具生成 Mermaid,已经成了很多人的日常。 无论是 ChatGPT、Claude,还是各类 Copilot 或 Agent,只需一句话,就能生成流程图、时序图或系统架构图的 Mermaid 代码——效率极高。 但很快会遇到一个现实问题: AI 把图“写”出来了,但你很难把它“好看地展示”出来。 问题不在生成,而在渲染 Mermaid 默认…

    2026年2月11日
    25100
  • 马斯克官宣数字擎天柱:AI数字员工来袭,能模拟完整公司运作

    世界首富埃隆·马斯克在社交平台X上宣布了一项新的AI项目:数字擎天柱,其内部代号为“巨硬”。 与特斯拉正在研发的实体“擎天柱”机器人不同,数字擎天柱专注于数字世界。它是一个能够在计算机上自动完成操作的AI数字员工,能够理解屏幕内容、操控键盘和鼠标,执行一系列日常办公任务。 马斯克对其能力描述颇为宏大: 从原则上讲,它甚至可以模拟一家完整公司的运作。 这预示着…

    5天前
    27700