清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷

在涵盖50项通用任务的测试中,Motus的绝对成功率比国际顶尖模型Pi-0.5提升了35%以上,最高提升幅度达到40%。这使其控制的机器人具备了预测未来的能力。

例如,在Cloudflare人机验证任务中,面对形状不规则的曲面鼠标,机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动并完成精准点击。

在需要长程多步推理的孔明棋任务中,Motus展现了严密的逻辑闭环,一步步解开棋局。

在处理柔性物体的叠衣服任务中,Motus控制下的过程丝滑顺畅,仿佛具备了人类的触觉和预判能力。

研究团队认为,Motus的出现率先在具身智能领域验证了Scaling Law,复刻了当年GPT-2被定义为“无监督多任务学习者”的突破。

一个架构统一五种范式

过去,具身智能领域的VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等范式模型难以有机整合。Motus最大的亮点在于,在一个框架内统一了这五种范式。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

其核心技术是Mixture-of-Transformer(MoT)架构与Tri-model Joint Attention(三模态联合注意力)机制。这相当于将三个“专家”整合在一起:
* 理解专家(大脑):基于Qwen-VL,负责理解环境和指令。
* 视频生成专家(想象力):基于Wan 2.2,负责推演未来画面。
* 动作专家(小脑):负责具体的运动控制。

通过Tri-model Joint Attention,三位专家可以在同一注意力层中实时交换信息,赋予机器人“感知-预测-决策”的闭环能力。

利用潜动作解决数据难题

训练此类模型面临数据挑战:机器人真机数据昂贵稀少,而互联网海量视频缺乏动作标签。Motus的解决方案是引入潜动作(Latent Action)

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

研究团队利用光流技术(Optical Flow)捕捉视频中像素级的运动轨迹,并通过Delta Action机制将这些像素变化“翻译”成机器人的动作趋势。这类似于让机器人通过观察视频中的动作轨迹来学习“招式”,从而能够利用互联网视频、人类第一视角视频等数据,提取通用的物理交互先验。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

基于数据金字塔和潜动作,Motus构建了一套三阶段训练流程:
1. 视频生成预训练:利用多机器人轨迹和人类操作视频微调视频生成专家,使其能根据条件帧和语言指令生成合理的操作视频。
2. 潜动作预训练:在冻结视觉语言模型的情况下,用视频、语言和潜动作同时预训练三个专家,充分注入通用运动先验。
3. 特定本体微调:利用目标机器人的真机数据对Motus进行整体微调,使其适应特定下游任务。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

物理世界中的Scaling Law

实验结果表明,Scaling Law在物理世界中得以验证。在仿真基准RoboTwin 2.0的50个通用任务中,Motus的平均成功率达到了88%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

特别是在高难度的“叠三个碗”任务中,Motus的成功率从基线模型的不足16%大幅提升至95%

更关键的是其扩展曲线(Scaling Curves)所展现的趋势。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%
清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

上图为数据量扩展曲线,下图为任务数量扩展曲线。红色为Motus,蓝色为Pi-0.5。

随着训练任务数量增加,传统模型(Pi-0.5)的性能因过拟合而下降,而Motus的性能持续上升。这证明,只要模型架构足够统一、数据来源足够多样,具身智能也能像大语言模型一样,涌现出跨任务的通用泛化能力。

真机测试中,Motus在AC-One和Agilex-Aloha-2等机械臂平台上均表现出良好的适应性,其数据效率相较基线模型提升了13.55倍。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

左:AC-One机械臂测试;右:Agilex-Aloha-2机械臂测试。

团队介绍

Motus由生数科技与清华大学联合发布,共同第一作者为:
* 毕弘喆:清华大学计算机系TSAIL实验室二年级硕士生,研究方向为具身智能基础模型,曾获CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
* 谭恒楷:清华大学计算机系TSAIL实验室三年级博士生,主攻视频世界模型和具身大模型,曾获NOI银牌,参与RDT、Vidar等多个重要项目。

目前,Motus的代码与模型权重均已开源。

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

作为联合发布方,生数科技此次开源Motus,也展现了其在世界模型领域的战略布局。生数科技认为,视频大模型是通往AGI的核心路径,因为视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的诞生,正是这一技术理念下的重要成果。

Motus标志着机器人从“机械执行”向“端到端智能”的跨越,也推动了整个行业从单点技术突破走向统一基座的发展。其背后是产学研协作产生的巨大化学反应:生数科技在多模态大模型上的深厚积累,结合清华大学团队的顶尖算法能力,共同催生了这一统一的世界模型。

事实上,生数科技与清华大学在该领域的探索已领先行业。团队于2025年7月便发表了Vidar具身视频模型的研究,而Motus则于2025年12月完成全部开源并发布论文,均早于行业同类进展。

目前,Motus已全量开源。

论文地址:
https://arxiv.org/abs/2512.13030

项目地址:
https://motus-robotics.github.io/motus

开源仓库:
https://github.com/thu-ml/Motus

模型权重:
https://huggingface.co/motus-robotics


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20485

(0)
上一篇 2026年2月6日 下午5:35
下一篇 2026年2月6日 下午5:56

相关推荐

  • VLA拐杖已弃,世界模型如何真正支撑具身智能落地?

    今年4月,具身智能领域发生了一件看似不大却意味深长的事。 由PaLM-E、RT-2等模型核心贡献者创立的明星公司,发布了新一代模型GEN-1,并在三个核心维度上实现了跨越式提升:任务成功率超过99%,运行速度提升2–3倍,所需数据量和微调成本仅为上一代的1/10。 几乎在同一周,其CEO Pete Florence发表了一篇博客,明确表示:他们不再将自己的模…

    2026年4月21日
    30800
  • 黄仁勋揭秘AI基建狂潮:6600亿美元投入背后,算力翻倍收入或翻四倍的商业逻辑

    上周,英伟达股价创下近一年来的单日最大涨幅,达到7.9%,公司总市值回升至4.5万亿美元。这一强劲表现,与核心客户近期在财报会议上释放的积极信号密切相关。 Meta、亚马逊、谷歌和微软等科技巨头均向投资者表示,计划在2026年大幅增加数据中心和专用芯片的资本支出,合计金额预计高达6600亿美元。这一数字较2025年的4100亿美元和2024年的2450亿美元…

    2026年2月9日
    62200
  • 中国团队首创医疗AI临床安全-有效性双轨评估标准CSEDB,MedGPT全球评测夺冠

    中国团队首创医疗AI临床安全-有效性双轨评估标准CSEDB,获《npj Digital Medicine》收录 中国团队首次在全球顶尖期刊发表“大模型+医疗”领域的相关标准研究。 作为Nature体系中专注于数字医疗的旗舰期刊,《npj Digital Medicine》(JCR影响因子15.1,中科院医学大类1区Top期刊)此次收录的CSEDB研究,首次提…

    2026年1月21日
    56200
  • 宇树科技发布390万载人机甲GD01,现实版高达量产在即

    《铁甲钢拳》和《机动战士高达》中的那些机械巨兽,终于从二次元世界闯入了现实。 就在最近,宇树科技推出了一款极具科幻色彩的载人机器人:GD01 载人变形机甲,起售价高达390万元。 官方将其定义为“民用交通工具”,但说实话,连交警看到它估计都得连夜翻查交通法规。值得一提的是,这也是全球首款实现量产的载人机甲。 在重量方面,官方数据显示,包括驾驶员在内,整机总重…

    3天前
    37100
  • 硅谷算力豪赌:OpenAI狂烧6000亿内讧,Anthropic收入飙至190亿却服务器崩盘

    近日,关于“GPT-6”即将发布的消息引发广泛关注。据称,这个代号为“Spud”的模型将整合ChatGPT、Codex和Atlas浏览器的能力,成为一个统一的智能体。有传言称,OpenAI为此甚至调整了Sora等项目的资源分配。 | —|—尽管相关消息已被官方辟谣,但公众的讨论热情并未减退。 与此同时,Anthropic此前被曝光的下…

    2026年4月7日
    35700