在具身智能的发展中,视觉-语言-动作模型已成为通用操作任务的核心框架。然而,面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时,VLA模型仍面临两大根本性挑战:
- 模仿学习在推理过程中产生的长序列误差累积问题;
- 真机强化学习成本高昂,难以规模化部署。
针对这些挑战,香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思路是:通过构建一个组合式、多视角的世界模型,让机器人完全在“想象”的虚拟空间中进行强化学习,从而无需依赖大规模的真机交互。该方法在多项长程复杂任务中实现了性能的跨越式提升,部分任务成功率较现有最佳基线提升超过45%。
传统VLA落地的三重枷锁
VLA模型在实际落地时,主要受限于模仿学习的固有缺陷、真机强化学习的现实壁垒,以及现有世界模型的技术短板。
第一,模仿学习的暴露偏差
当前主流VLA模型依赖专家演示数据进行训练,本质上只学习了“成功路径”。这导致模型:
* 从未见过失败状态,缺乏纠错能力;
* 在长程任务中,微小的初始误差会随着执行步骤逐步放大,最终导致任务失败。
第二,真机强化学习的现实难题
理论上,强化学习可以弥补模仿学习的不足,但在真实物理世界中却面临三重约束:
* 样本效率低:需要海量的交互数据,训练周期漫长。
* 安全风险高:探索性操作极易导致机器人硬件磨损或损坏。
* 重置成本高:每次任务失败后,都需要人工介入恢复环境,效率极低。
第三,现有世界模型的能力短板
为弥合虚实差距,学界曾尝试使用生成式世界模型来模拟环境。但这类模型往往难以同时保证动作的可控性和长程预测的一致性,容易出现画面失真或违背物理规律的情况,因此无法作为强化学习的可靠训练环境。

图:RISE框架概览。(a) 传统真机强化学习受限于硬件与重置成本;(b) RISE在组合式世界模型中进行在线学习;(c) 在真机任务上实现显著性能提升。
RISE的破局之道:组合式世界模型与想象空间自进化
RISE的核心创新在于,将物理环境的交互完全迁移到一个由组合式世界模型构建的“想象空间”中。通过虚实解耦的设计,既解决了世界模型的高保真模拟问题,又构建了一个高效的策略自进化闭环。
1. 组合式世界模型:解耦设计,兼顾模拟精度与评估能力
与传统单一模型不同,RISE将世界模型解耦为两个独立优化的模块:
* 可控动力学模型:作为“模拟器”,专注于高保真地模拟机器人动作带来的视觉状态变化,确保动作指令与视觉反馈的高度对齐。
* 进度价值模型:作为“裁判员”,负责评估想象轨迹的每一步价值。它融合了进度估计和时序差分学习,能为长程任务提供密集的奖励信号,并对细微失败保持敏感。
两个模块均使用包含成功与失败案例的数据进行训练,防止模型过拟合。
2. 想象空间自进化循环:三步实现无真机的策略迭代
在构建的高保真“思维沙盒”中,RISE运行一个完全在线的强化学习闭环:
* 第一步:推演。VLA策略与动力学模型交互,根据当前状态生成未来多种动作路径的视觉预测序列。
* 第二步:评估。进度价值模型对所有想象出的轨迹进行评分,区分高价值(成功)与低价值(失败)的动作路径。
* 第三步:训练。利用评估结果,通过流匹配目标更新VLA策略,使其持续强化成功路径、规避失败路径,实现自我进化。

RISE架构解析:虚实解耦,让想象贴合物理规律
RISE的架构通过解耦与对齐,使虚拟的想象空间无限贴近真实物理世界。其核心逻辑是模型解耦建沙盒,轨迹迭代优策略。
组合式世界模型的解耦设计,从根源上解决了模拟与评估不可兼得的问题。而想象空间的自进化闭环,则让强化学习的试错完全脱离真机:模型在同一初始状态下生成多种轨迹,通过“自我博弈”完成优化。这种方式不仅避免了真机试错的成本与风险,更让模型学会了从失败中恢复的关键能力。
实验验证:性能飙升、泛化性强
研究团队在动态积木分拣、背包装袋(柔性物体)、纸盒闭合(精细双臂协同)三大高难度真机长程任务上对RISE进行了系统评估。
性能大幅超越现有基线
相较于π₀.₅、RECAP、DSRL等先进基线,RISE在所有任务上均实现了成功率的大幅提升:
* 动态积木分拣:成功率从50%提升至85%。
* 背包装袋:成功率从30%提升至85%,涨幅达45%。
* 纸盒闭合:成功率高达95%。

组件必要性验证
消融实验表明,RISE的每一个核心模块都是性能提升的关键,移除任一组件都会导致效果显著下降。


- 移除 Task-Centric Batching 后,动力学模型的动作控制能力显著下降,导致任务完成率降低。
- 移除 TD Learning 后,价值模型难以敏锐识别细微的失败状态,使得策略优化失去明确方向。
- 脱离在线动作与在线状态更新,模型无法突破离线数据集的分布限制,导致泛化能力大幅减弱。
泛化与抗扰:超越机械模仿
RISE 训练出的策略不再机械复制专家数据,而是展现出从意外失败中自主恢复的智能行为:
- 抗干扰恢复:当任务执行因人为干扰(如物体被推离原位、抓取意外滑落)而中断时,模型能够主动调整后续动作,从失败状态中恢复并最终完成任务。
- 位置泛化:即使被操作物体(如待折叠的衣物、书包)的初始摆放位置发生变化,模型仍能精准完成任务,无需针对新位置进行重新训练。
生成质量:高保真的物理规律复现
在模型生成质量的定量与定性评估中,RISE 的动力学模型表现优于 Genie Envisioner、Cosmos 等基线模型:
- 定量评估:在 Fréchet 视频距离(FVD)和端点误差(EPE)两项指标上均达到最优,表明其视频生成精度与动作跟随能力更佳。

- 定性评估:能够生成清晰、符合物理规律的多视角未来帧序列,避免了模糊、物体瞬移或动作不一致等问题。该表现在 Bridge、Galaxea、Agibot World 等多个大规模数据集上均保持一致。

所提出的动力学模型能够合成具有高视觉保真度的连贯多视角视频序列,为强化学习提供了坚实的基础。以下视频片段按从上至下顺序排列:

模型生成清晰且物理一致的未来帧,而基线模型常出现模糊或物体瞬移等不符合物理规律的现象。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26175


