RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

具身智能的发展中,视觉-语言-动作模型已成为通用操作任务的核心框架。然而,面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时,VLA模型仍面临两大根本性挑战:

  1. 模仿学习在推理过程中产生的长序列误差累积问题;
  2. 真机强化学习成本高昂,难以规模化部署。

针对这些挑战,香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思路是:通过构建一个组合式、多视角的世界模型,让机器人完全在“想象”的虚拟空间中进行强化学习,从而无需依赖大规模的真机交互。该方法在多项长程复杂任务中实现了性能的跨越式提升,部分任务成功率较现有最佳基线提升超过45%。

传统VLA落地的三重枷锁

VLA模型在实际落地时,主要受限于模仿学习的固有缺陷、真机强化学习的现实壁垒,以及现有世界模型的技术短板。

第一,模仿学习的暴露偏差
当前主流VLA模型依赖专家演示数据进行训练,本质上只学习了“成功路径”。这导致模型:
* 从未见过失败状态,缺乏纠错能力;
* 在长程任务中,微小的初始误差会随着执行步骤逐步放大,最终导致任务失败。

第二,真机强化学习的现实难题
理论上,强化学习可以弥补模仿学习的不足,但在真实物理世界中却面临三重约束:
* 样本效率低:需要海量的交互数据,训练周期漫长。
* 安全风险高:探索性操作极易导致机器人硬件磨损或损坏。
* 重置成本高:每次任务失败后,都需要人工介入恢复环境,效率极低。

第三,现有世界模型的能力短板
为弥合虚实差距,学界曾尝试使用生成式世界模型来模拟环境。但这类模型往往难以同时保证动作的可控性长程预测的一致性,容易出现画面失真或违背物理规律的情况,因此无法作为强化学习的可靠训练环境。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%
图:RISE框架概览。(a) 传统真机强化学习受限于硬件与重置成本;(b) RISE在组合式世界模型中进行在线学习;(c) 在真机任务上实现显著性能提升。

RISE的破局之道:组合式世界模型与想象空间自进化

RISE的核心创新在于,将物理环境的交互完全迁移到一个由组合式世界模型构建的“想象空间”中。通过虚实解耦的设计,既解决了世界模型的高保真模拟问题,又构建了一个高效的策略自进化闭环。

1. 组合式世界模型:解耦设计,兼顾模拟精度与评估能力
与传统单一模型不同,RISE将世界模型解耦为两个独立优化的模块:
* 可控动力学模型:作为“模拟器”,专注于高保真地模拟机器人动作带来的视觉状态变化,确保动作指令与视觉反馈的高度对齐。
* 进度价值模型:作为“裁判员”,负责评估想象轨迹的每一步价值。它融合了进度估计和时序差分学习,能为长程任务提供密集的奖励信号,并对细微失败保持敏感。

两个模块均使用包含成功与失败案例的数据进行训练,防止模型过拟合。

2. 想象空间自进化循环:三步实现无真机的策略迭代
在构建的高保真“思维沙盒”中,RISE运行一个完全在线的强化学习闭环:
* 第一步:推演。VLA策略与动力学模型交互,根据当前状态生成未来多种动作路径的视觉预测序列。
* 第二步:评估。进度价值模型对所有想象出的轨迹进行评分,区分高价值(成功)与低价值(失败)的动作路径。
* 第三步:训练。利用评估结果,通过流匹配目标更新VLA策略,使其持续强化成功路径、规避失败路径,实现自我进化。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

RISE架构解析:虚实解耦,让想象贴合物理规律

RISE的架构通过解耦与对齐,使虚拟的想象空间无限贴近真实物理世界。其核心逻辑是模型解耦建沙盒,轨迹迭代优策略

组合式世界模型的解耦设计,从根源上解决了模拟与评估不可兼得的问题。而想象空间的自进化闭环,则让强化学习的试错完全脱离真机:模型在同一初始状态下生成多种轨迹,通过“自我博弈”完成优化。这种方式不仅避免了真机试错的成本与风险,更让模型学会了从失败中恢复的关键能力。

实验验证:性能飙升、泛化性强

研究团队在动态积木分拣、背包装袋(柔性物体)、纸盒闭合(精细双臂协同)三大高难度真机长程任务上对RISE进行了系统评估。

性能大幅超越现有基线
相较于π₀.₅、RECAP、DSRL等先进基线,RISE在所有任务上均实现了成功率的大幅提升:
* 动态积木分拣:成功率从50%提升至85%
* 背包装袋:成功率从30%提升至85%,涨幅达45%。
* 纸盒闭合:成功率高达95%

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

组件必要性验证
消融实验表明,RISE的每一个核心模块都是性能提升的关键,移除任一组件都会导致效果显著下降。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%
RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

  • 移除 Task-Centric Batching 后,动力学模型的动作控制能力显著下降,导致任务完成率降低。
  • 移除 TD Learning 后,价值模型难以敏锐识别细微的失败状态,使得策略优化失去明确方向。
  • 脱离在线动作与在线状态更新,模型无法突破离线数据集的分布限制,导致泛化能力大幅减弱。

泛化与抗扰:超越机械模仿

RISE 训练出的策略不再机械复制专家数据,而是展现出从意外失败中自主恢复的智能行为:

  • 抗干扰恢复:当任务执行因人为干扰(如物体被推离原位、抓取意外滑落)而中断时,模型能够主动调整后续动作,从失败状态中恢复并最终完成任务。

  • 位置泛化:即使被操作物体(如待折叠的衣物、书包)的初始摆放位置发生变化,模型仍能精准完成任务,无需针对新位置进行重新训练。

生成质量:高保真的物理规律复现

在模型生成质量的定量与定性评估中,RISE 的动力学模型表现优于 Genie Envisioner、Cosmos 等基线模型:

  • 定量评估:在 Fréchet 视频距离(FVD)和端点误差(EPE)两项指标上均达到最优,表明其视频生成精度与动作跟随能力更佳。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

  • 定性评估:能够生成清晰、符合物理规律的多视角未来帧序列,避免了模糊、物体瞬移或动作不一致等问题。该表现在 Bridge、Galaxea、Agibot World 等多个大规模数据集上均保持一致。

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

所提出的动力学模型能够合成具有高视觉保真度的连贯多视角视频序列,为强化学习提供了坚实的基础。以下视频片段按从上至下顺序排列:

RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

模型生成清晰且物理一致的未来帧,而基线模型常出现模糊或物体瞬移等不符合物理规律的现象。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26175

(0)
上一篇 2026年3月17日 下午2:41
下一篇 2026年3月17日 下午9:23

相关推荐

  • 港股再燃AI热潮!德适生物登陆港交所,医学影像AI大模型赛道迎来新巨头

    港股再燃AI热潮!德适生物登陆港交所,医学影像AI大模型赛道迎来新巨头 近日,港股市场的情绪再次被AI大模型点燃。 继年初智谱、MiniMax两大通用AI巨头上市后,3月30日,杭州德适生物科技股份有限公司正式登陆港交所。 作为港股首家医学影像AI大模型公司,德适的上市标志着中国大模型领域的三驾马车——“德智米”(德适、智谱、MiniMax),成功在港股会师…

    2026年4月3日
    21300
  • Vibe Coding实战:如何让AI告别“屎山工程”,小白也能驾驭的工程化编程指南

    最近一波 Vibe Coding 热潮袭来,不少非科班出身的小白也开始直接对着 AI 开干: “帮我写个系统。” “帮我做个网站。” “帮我做个 AI Agent。” 结果呢? 开局猛如虎,三天变“二百五”,一周堆出一座巨大的“屎山工程”。代码能跑,但不敢改;功能看似齐全,却毫无结构;越改越乱,越乱越崩。 这不是你不行,是你没“调教”好 AI。 今天介绍一个…

    2026年2月20日
    49500
  • 谷歌地图重磅升级!Gemini驱动“Ask Maps”和“沉浸式导航”两大功能,旅行规划应用面临挑战

    谷歌地图重磅升级:Gemini驱动“Ask Maps”与“沉浸式导航” 谷歌正持续将其强大的Gemini模型能力深度整合至旗下产品。近日,谷歌正式宣布为谷歌地图推出两项由Gemini驱动的新功能:“Ask Maps”与“沉浸式导航”。 此次更新被官方称为谷歌地图十多年来的最大升级,引发了广泛关注。 核心功能解析 1. Ask Maps:对话式智能规划 用户可…

    2026年3月14日
    34800
  • GLM-5引领中国AI成熟期:从炫技到系统工程的跨越

    我们每天都在见证「全球大模型第一股」智谱的历史新高。 2026 年的春节档,注定将被写入中国 AI 的发展史。 过去半个月,AI 社区被两颗「超新星」彻底点燃:一颗是字节跳动发布的 Seedance 2.0,它用震撼的视频生成能力横扫了全球社交网络,代表了 AI 在感性与创意维度的大爆发;而另一颗,则是这几天让开发者们彻夜未眠的智谱 GLM-5。 可以说,S…

    2026年2月13日
    47400
  • 谷歌Veo 3.1震撼发布,全面迎战Sora 2:AI视频的“专业级”战争正式打响

    2025年10月16日,谷歌发布AI视频生成模型Veo 3.1,正面迎战OpenAI的Sora 2。新版本主打电影级画质、原生音频同步、精准对象编辑与首尾帧插值,支持最长148秒视频生成,全面接入Flow、Gemini API与Vertex AI平台。与Sora 2的“生活化、社交化”路线不同,Veo 3.1定位专业创作与商业应用,标志着AI视频生成进入可控、可编辑、可商用的工业化阶段。

    2025年10月16日
    1.7K01