清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷

在涵盖50项通用任务的测试中,Motus的绝对成功率比国际顶尖模型Pi-0.5提升了35%以上,最高提升幅度达到40%。这使其控制的机器人具备了预测未来的能力。

例如,在Cloudflare人机验证任务中,面对形状不规则的曲面鼠标,机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动并完成精准点击。

在需要长程多步推理的孔明棋任务中,Motus展现了严密的逻辑闭环,一步步解开棋局。

在处理柔性物体的叠衣服任务中,Motus控制下的过程丝滑顺畅,仿佛具备了人类的触觉和预判能力。

研究团队认为,Motus的出现率先在具身智能领域验证了Scaling Law,复刻了当年GPT-2被定义为“无监督多任务学习者”的突破。

一个架构统一五种范式

过去,具身智能领域的VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等范式模型难以有机整合。Motus最大的亮点在于,在一个框架内统一了这五种范式。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

其核心技术是Mixture-of-Transformer(MoT)架构与Tri-model Joint Attention(三模态联合注意力)机制。这相当于将三个“专家”整合在一起:
* 理解专家(大脑):基于Qwen-VL,负责理解环境和指令。
* 视频生成专家(想象力):基于Wan 2.2,负责推演未来画面。
* 动作专家(小脑):负责具体的运动控制。

通过Tri-model Joint Attention,三位专家可以在同一注意力层中实时交换信息,赋予机器人“感知-预测-决策”的闭环能力。

利用潜动作解决数据难题

训练此类模型面临数据挑战:机器人真机数据昂贵稀少,而互联网海量视频缺乏动作标签。Motus的解决方案是引入潜动作(Latent Action)

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

研究团队利用光流技术(Optical Flow)捕捉视频中像素级的运动轨迹,并通过Delta Action机制将这些像素变化“翻译”成机器人的动作趋势。这类似于让机器人通过观察视频中的动作轨迹来学习“招式”,从而能够利用互联网视频、人类第一视角视频等数据,提取通用的物理交互先验。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

基于数据金字塔和潜动作,Motus构建了一套三阶段训练流程:
1. 视频生成预训练:利用多机器人轨迹和人类操作视频微调视频生成专家,使其能根据条件帧和语言指令生成合理的操作视频。
2. 潜动作预训练:在冻结视觉语言模型的情况下,用视频、语言和潜动作同时预训练三个专家,充分注入通用运动先验。
3. 特定本体微调:利用目标机器人的真机数据对Motus进行整体微调,使其适应特定下游任务。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

物理世界中的Scaling Law

实验结果表明,Scaling Law在物理世界中得以验证。在仿真基准RoboTwin 2.0的50个通用任务中,Motus的平均成功率达到了88%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

特别是在高难度的“叠三个碗”任务中,Motus的成功率从基线模型的不足16%大幅提升至95%

更关键的是其扩展曲线(Scaling Curves)所展现的趋势。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%
清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

上图为数据量扩展曲线,下图为任务数量扩展曲线。红色为Motus,蓝色为Pi-0.5。

随着训练任务数量增加,传统模型(Pi-0.5)的性能因过拟合而下降,而Motus的性能持续上升。这证明,只要模型架构足够统一、数据来源足够多样,具身智能也能像大语言模型一样,涌现出跨任务的通用泛化能力。

真机测试中,Motus在AC-One和Agilex-Aloha-2等机械臂平台上均表现出良好的适应性,其数据效率相较基线模型提升了13.55倍。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

左:AC-One机械臂测试;右:Agilex-Aloha-2机械臂测试。

团队介绍

Motus由生数科技与清华大学联合发布,共同第一作者为:
* 毕弘喆:清华大学计算机系TSAIL实验室二年级硕士生,研究方向为具身智能基础模型,曾获CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
* 谭恒楷:清华大学计算机系TSAIL实验室三年级博士生,主攻视频世界模型和具身大模型,曾获NOI银牌,参与RDT、Vidar等多个重要项目。

目前,Motus的代码与模型权重均已开源。

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

作为联合发布方,生数科技此次开源Motus,也展现了其在世界模型领域的战略布局。生数科技认为,视频大模型是通往AGI的核心路径,因为视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的诞生,正是这一技术理念下的重要成果。

Motus标志着机器人从“机械执行”向“端到端智能”的跨越,也推动了整个行业从单点技术突破走向统一基座的发展。其背后是产学研协作产生的巨大化学反应:生数科技在多模态大模型上的深厚积累,结合清华大学团队的顶尖算法能力,共同催生了这一统一的世界模型。

事实上,生数科技与清华大学在该领域的探索已领先行业。团队于2025年7月便发表了Vidar具身视频模型的研究,而Motus则于2025年12月完成全部开源并发布论文,均早于行业同类进展。

目前,Motus已全量开源。

论文地址:
https://arxiv.org/abs/2512.13030

项目地址:
https://motus-robotics.github.io/motus

开源仓库:
https://github.com/thu-ml/Motus

模型权重:
https://huggingface.co/motus-robotics


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/20485

(0)
上一篇 2026年2月6日 下午5:35
下一篇 2026年2月6日 下午5:56

相关推荐

  • GenMimic突破:从AI生成视频到机器人零样本模仿,人形机器人迎来动作学习新范式

    在《黑客帝国》中,Neo通过脑机接口瞬间掌握功夫的场景曾让无数观众惊叹。如今,这一科幻想象正通过伯克利、纽约大学和约翰・开普勒林茨大学联合研究团队提出的GenMimic方法,在机器人领域迈出实质性步伐。这项研究不仅解决了人形机器人如何零样本执行生成视频中人类动作的核心问题,更开辟了机器人动作学习的新路径。 研究团队构建的完整技术框架包含三个关键创新:GenM…

    2025年12月6日
    19500
  • 蚂蚁灵波开源最强具身智能大脑LingBot-VLA:20000小时真实数据验证Scaling Law,实现“一个大脑,多个身体”

    从3000小时到20000小时:真实数据验证Scaling Law 从3000小时到整整20000小时。 真实世界数据中的Scaling Law,直接催生了一个强大的VLA(视觉-语言-动作)基座模型! 这就是蚂蚁灵波最新开源的具身智能基座模型——LingBot-VLA。 为何称其为当前最强?首先看数据。 仅从“20000小时”这个规模来看,LingBot-…

    2026年1月28日
    34900
  • AI智能体经济新纪元:ClawTasks平台开启自主交易与雇佣革命

    估计连Clawd之父Peter Steinberger都没想到,事态发展如此之快。 就在昨天Clawdbot刚刚开始社交后,Clawd生态再次进化,Clawdbot现在可以真金白银地赚钱了。就在刚刚,Matt Shumer推出了ClawTasks,一个让AI智能体相互雇佣并用真实货币交易的平台。智能体可以在这里发布悬赏任务,也可以接单赚取USDC。 整个流程…

    2026年2月1日
    18500
  • Meta WorldGen:文本驱动3D世界生成的革命性突破与产业影响分析

    在生成式AI技术快速演进的浪潮中,Meta最新发布的WorldGen研究标志着3D内容创作领域迈入了全新的范式。这项技术不仅实现了从简单文本提示到完整可交互3D世界的端到端生成,更在几何一致性、空间连贯性和功能实用性方面取得了突破性进展,为游戏开发、虚拟仿真、沉浸式社交等应用场景带来了革命性的可能性。 从技术架构层面分析,WorldGen采用了多阶段融合的创…

    2025年11月22日
    16000
  • 英伟达财报深度解析:2026年AI算力万亿市场,数据中心业务占比超88%引领增长

    2026年AI算力市场的竞争格局与增长轨迹,与英伟达的战略动向紧密相连。从2025财年财报的超预期表现,到2026财年的强劲业绩指引,再到管理层对远期芯片收入预期的上调,英伟达不仅以财务数据验证了全球AI算力需求的持续性与韧性,更通过其技术路线与业务布局,揭示了万亿级市场的未来轮廓。 本文将以英伟达2025财年财报为核心切入点,系统分析其各业务板块表现,解读…

    2026年3月2日
    20100