清华&伯克利联手突破:BOOM框架让具身智能性能翻倍,世界模型+强化学习实现双向奔赴

具身智能的样本效率瓶颈

在具身智能(Embodied AI)的快速发展中,样本效率已成为制约智能体从实验室环境走向复杂开放世界的瓶颈问题。

不同于纯数字域的对话任务,具身任务通常涉及极度复杂的物理环境感知以及高维度的连续控制输出。这意味着智能体面临着巨大的状态-动作搜索空间,导致学习效率低下且难以收敛。

传统的无模型强化学习由于缺乏对底层物理逻辑的理解,完全依赖于海量的盲目试错来获取学习信号。然而,在现实物理世界中,每一次交互都伴随着不可忽视的时间损耗、高昂的硬件维护成本以及潜在的安全风险,这使得动辄数亿次的交互需求变得极不现实。

为了应对这一挑战,世界模型强化学习(World Model RL)研究应运而生。其核心范式在于通过额外学习一个能够表征环境内在转移规律的预测模型,使智能体具备在想象空间中进行自我进化的能力。这种机制允许智能体在潜空间内进行大规模、低成本的轨迹预演与策略优化,从而显著降低对环境交互的依赖,加速具身智能机器人的落地应用。

清华&伯克利联手突破:BOOM框架让具身智能性能翻倍,世界模型+强化学习实现双向奔赴

在世界模型强化学习领域,如何将“多看几步”的在线规划(Online Planning)与“博采众长”的离轨策略学习(Off-Policy)机制完美结合?清华大学与加州大学伯克利分校的研究团队联合提出了BOOM框架,通过创新的“自举循环”机制,实现了高维控制任务下的性能新突破。

动机:当“在线规划”遇上“策略学习”

在线规划能够让智能体在环境交互前通过模拟未来轨迹来优化动作,显著提升强化学习的样本效率。然而,当在线规划与策略学习相遇时,存在一个根本性的矛盾:角色偏差(Actor Divergence),即规划器和策略是两个不同的角色。

这造成了两大痛点:
* 痛点一:价值学习的分布偏移:价值函数是在规划器收集的数据上训练的,而非策略网络本身。这导致它在策略网络实际访问的区域可能产生高估,造成评估不准。
* 痛点二:不可靠的策略改进:受偏置价值估计的影响,策略网络难以区分动作优劣,在复杂高维环境下极易导致训练不稳定甚至性能崩盘。

核心亮点:BOOM——让规划与学习“双向奔赴”

清华&伯克利联手突破:BOOM框架让具身智能性能翻倍,世界模型+强化学习实现双向奔赴

为了解决这一难题,研究团队提出了BOOM(Bootstrap Off-policy with World Model)框架。其核心思想是构建一个自举循环(Bootstrap Loop):
* 策略暖启动规划:策略网络为规划器提供初始动作方案。
* 规划精炼策略:规划器利用世界模型精炼出更高质量的动作,并通过行为对齐(Behavior Alignment)反馈给策略网络。

1. 无似然对齐机制(Likelihood-free Alignment)

由于在线规划器的动作分布通常是不可显式表达的非参数化分布(Non-parametric),其似然度(Likelihood)难以计算。BOOM采用了一种无似然对齐损失,无需知道规划器的具体概率分布,即可实现策略与规划动作的高效对齐,缓解角色偏差。

2. 软Q加权机制(Soft Q-weighted Mechanism)

并非所有的规划动作都是完美的。BOOM引入了软Q加权机制,根据Q函数动态调整权重,引导策略优先学习那些高价值、高回报的优质经验,从而在处理历史数据波动的同时加速学习。

实验结果:刷新SOTA,征服高维挑战

研究团队在DeepMind Control Suite(DMC)和挑战性极高的Humanoid-Bench(H-Bench)上进行了全面评估。

清华&伯克利联手突破:BOOM框架让具身智能性能翻倍,世界模型+强化学习实现双向奔赴

  • 卓越性能:在Humanoid和Dog等14个高维任务中,BOOM的最终表现和训练稳定性均达到了State-of-the-art(SOTA)水平。
  • 大幅领先:在DMC任务中,BOOM超过了TD-MPC2(+17.7%)和BMPC(+5.0%)。在Humanoid-Bench任务上,更是比DreamerV3提升了47.7%,比BMPC提升了60.5%。
  • 复杂环境适应性:即使是在需要滑行(H1hand-slide)或跨障碍(H1hand-hurdle)的复杂任务中,BOOM依然展现出了极强的控制鲁棒性,部分任务性能提升甚至超过100%。

总结与展望

BOOM框架通过巧妙的自举对齐机制,消弥了世界模型规划与离轨策略强化学习之间的鸿沟。这不仅为高维连续控制任务提供了一套高效、稳定的解决方案,也为未来具身智能(Embodied AI)在复杂现实环境中的落地提供了坚实的理论与实验支撑。

  • 论文题目:Bootstrap Off-policy with World Model
  • 论文链接:https://openreview.net/forum?id=zNqDCSokDR
  • 作者单位:清华大学、加州大学伯克利分校
  • 录取会议:NeurIPS 2025
  • 项目代码:https://github.com/molumitu/BOOM_MBRL

清华&伯克利联手突破:BOOM框架让具身智能性能翻倍,世界模型+强化学习实现双向奔赴


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/18527

(0)
上一篇 2026年1月21日 上午11:00
下一篇 2026年1月21日 上午11:51

相关推荐

  • 黄仁勋怒批AI末日论:别动不动吓唬人,SaaS也没那么容易死

    黄仁勋怒批AI末日论:别动不动吓唬人,SaaS也没那么容易死 过去一年,AI领域最热门的叙事之一,就是“替代”。从程序员、设计师到SaaS产品乃至整个工作模式,似乎每隔一段时间就有新观点抛出:多少岗位将被淘汰,哪个行业会被彻底重塑。但英伟达CEO黄仁勋显然对这种论调不以为然。 立足事实,别动不动吓唬人 在最近一期《Memos to the President…

    AI产业动态 2026年5月4日
    12100
  • 驯服GPU集群中的“吵闹邻居”:MIT等高校提出轻量级控制器,实现可预测LLM服务,TTFT p99降低10-15%

    关键词:GPU 多租户、LLM 服务、SLO 合规、PCIe 感知放置、动态 MIG、TTFT 在如今大模型(LLM)服务无处不在的时代,无论是智能助手、代码生成还是实时翻译,用户都期望获得快速、稳定的响应。然而,在共享的 GPU 集群上部署这些服务时,一个普遍而棘手的问题悄然浮现——“吵闹的邻居”效应。 想象一下,你正在参加一场重要的视频会议,而隔壁却在装…

    2026年1月20日
    41500
  • 阿里开源Qwen3-Coder-Next:3B激活参数硬刚Sonnet4.5,智能体训练范式颠覆编程AI

    今天凌晨,阿里开源了最新的编程模型 Qwen3-Coder-Next。其最引人注目的特点在于:一个仅激活 30亿参数 的模型,在编程智能体任务上达到了与 Claude Sonnet 4.5 等顶级模型相当的水平。 Qwen团队在同步公开的技术报告中,提出了一个反行业直觉的核心结论: “扩展智能体训练规模,而非仅仅扩大模型规模,才是提升现实世界编码智能体能力的…

    2026年2月4日
    49300
  • 2025人工智能年度盘点:开源竞速、Agent崛起与产业融合的共生纪元

    2025年,人工智能领域迎来了前所未有的技术爆发与产业融合。这一年,开源与闭源模型的双线竞速、AI Agent的规模化应用、世界模型的商业化落地以及具身智能的全面渗透,共同勾勒出一幅“共生无界”的智能未来图景。 **开源与闭源的边界消融** 2025年初,DeepSeek-R1的横空出世为全年技术叙事定下基调。这款模型不仅在参数规模上实现突破,更在推理效率、…

    2025年12月10日
    35900
  • 理想前智驾一号位郎咸朋联手阿里前副总裁任庚,昆仑行3月注册即成独角兽,具身智能赛道再掀资本狂潮

    一家具身智能公司,3月初刚刚注册,3月尚未结束,估值已远超10亿美元。 这家公司名为“昆仑行”,由理想汽车前智驾一号位郎咸朋与阿里巴巴前副总裁任庚携手创立。 据悉,昆仑行已迅速完成三轮融资,跻身独角兽行列,成为今年以来最受资本关注的具身智能新势力之一。 企查查数据显示,北京昆仑行机器人科技有限公司注册于2026年3月16日,经营范围涵盖智能机器人研发与销售、…

    2026年4月1日
    57500