RISE突破VLA瓶颈：组合式世界模型让机器人在想象空间完成强化学习，任务成功率提升超45%

在具身智能的发展中，视觉-语言-动作模型已成为通用操作任务的核心框架。然而，面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时，VLA模型仍面临两大根本性挑战：

模仿学习在推理过程中产生的长序列误差累积问题；
真机强化学习成本高昂，难以规模化部署。

针对这些挑战，香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思路是：通过构建一个组合式、多视角的世界模型，让机器人完全在“想象”的虚拟空间中进行强化学习，从而无需依赖大规模的真机交互。该方法在多项长程复杂任务中实现了性能的跨越式提升，部分任务成功率较现有最佳基线提升超过45%。

传统VLA落地的三重枷锁

VLA模型在实际落地时，主要受限于模仿学习的固有缺陷、真机强化学习的现实壁垒，以及现有世界模型的技术短板。

第一，模仿学习的暴露偏差
当前主流VLA模型依赖专家演示数据进行训练，本质上只学习了“成功路径”。这导致模型：
* 从未见过失败状态，缺乏纠错能力；
* 在长程任务中，微小的初始误差会随着执行步骤逐步放大，最终导致任务失败。

第二，真机强化学习的现实难题
理论上，强化学习可以弥补模仿学习的不足，但在真实物理世界中却面临三重约束：
* 样本效率低：需要海量的交互数据，训练周期漫长。
* 安全风险高：探索性操作极易导致机器人硬件磨损或损坏。
* 重置成本高：每次任务失败后，都需要人工介入恢复环境，效率极低。

第三，现有世界模型的能力短板
为弥合虚实差距，学界曾尝试使用生成式世界模型来模拟环境。但这类模型往往难以同时保证动作的可控性和长程预测的一致性，容易出现画面失真或违背物理规律的情况，因此无法作为强化学习的可靠训练环境。

RISE突破VLA瓶颈：组合式世界模型让机器人在想象空间完成强化学习，任务成功率提升超45%
图：RISE框架概览。(a) 传统真机强化学习受限于硬件与重置成本；(b) RISE在组合式世界模型中进行在线学习；(c) 在真机任务上实现显著性能提升。

RISE的破局之道：组合式世界模型与想象空间自进化

RISE的核心创新在于，将物理环境的交互完全迁移到一个由组合式世界模型构建的“想象空间”中。通过虚实解耦的设计，既解决了世界模型的高保真模拟问题，又构建了一个高效的策略自进化闭环。

1. 组合式世界模型：解耦设计，兼顾模拟精度与评估能力
与传统单一模型不同，RISE将世界模型解耦为两个独立优化的模块：
* 可控动力学模型：作为“模拟器”，专注于高保真地模拟机器人动作带来的视觉状态变化，确保动作指令与视觉反馈的高度对齐。
* 进度价值模型：作为“裁判员”，负责评估想象轨迹的每一步价值。它融合了进度估计和时序差分学习，能为长程任务提供密集的奖励信号，并对细微失败保持敏感。

两个模块均使用包含成功与失败案例的数据进行训练，防止模型过拟合。

2. 想象空间自进化循环：三步实现无真机的策略迭代
在构建的高保真“思维沙盒”中，RISE运行一个完全在线的强化学习闭环：
* 第一步：推演。VLA策略与动力学模型交互，根据当前状态生成未来多种动作路径的视觉预测序列。
* 第二步：评估。进度价值模型对所有想象出的轨迹进行评分，区分高价值（成功）与低价值（失败）的动作路径。
* 第三步：训练。利用评估结果，通过流匹配目标更新VLA策略，使其持续强化成功路径、规避失败路径，实现自我进化。

RISE突破VLA瓶颈：组合式世界模型让机器人在想象空间完成强化学习，任务成功率提升超45%

RISE架构解析：虚实解耦，让想象贴合物理规律

RISE的架构通过解耦与对齐，使虚拟的想象空间无限贴近真实物理世界。其核心逻辑是模型解耦建沙盒，轨迹迭代优策略。

组合式世界模型的解耦设计，从根源上解决了模拟与评估不可兼得的问题。而想象空间的自进化闭环，则让强化学习的试错完全脱离真机：模型在同一初始状态下生成多种轨迹，通过“自我博弈”完成优化。这种方式不仅避免了真机试错的成本与风险，更让模型学会了从失败中恢复的关键能力。

实验验证：性能飙升、泛化性强

研究团队在动态积木分拣、背包装袋（柔性物体）、纸盒闭合（精细双臂协同）三大高难度真机长程任务上对RISE进行了系统评估。

性能大幅超越现有基线
相较于π₀.₅、RECAP、DSRL等先进基线，RISE在所有任务上均实现了成功率的大幅提升：
* 动态积木分拣：成功率从50%提升至85%。
* 背包装袋：成功率从30%提升至85%，涨幅达45%。
* 纸盒闭合：成功率高达95%。

RISE突破VLA瓶颈：组合式世界模型让机器人在想象空间完成强化学习，任务成功率提升超45%