清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

由生数科技联合清华大学开源的大一统世界模型——Motus，在架构上首次将视觉-语言-动作（VLA）、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来，实现了“看-想-动”的完美闭环。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷。

在涵盖50项通用任务的测试中，Motus的绝对成功率比国际顶尖模型Pi-0.5提升了35%以上，最高提升幅度达到40%。这使其控制的机器人具备了预测未来的能力。

例如，在Cloudflare人机验证任务中，面对形状不规则的曲面鼠标，机械臂不仅能精准识别，还能根据鼠标与屏幕点击框的距离，平稳连续地移动并完成精准点击。

在需要长程多步推理的孔明棋任务中，Motus展现了严密的逻辑闭环，一步步解开棋局。

在处理柔性物体的叠衣服任务中，Motus控制下的过程丝滑顺畅，仿佛具备了人类的触觉和预判能力。

研究团队认为，Motus的出现率先在具身智能领域验证了Scaling Law，复刻了当年GPT-2被定义为“无监督多任务学习者”的突破。

一个架构统一五种范式

过去，具身智能领域的VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等范式模型难以有机整合。Motus最大的亮点在于，在一个框架内统一了这五种范式。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

其核心技术是Mixture-of-Transformer（MoT）架构与Tri-model Joint Attention（三模态联合注意力）机制。这相当于将三个“专家”整合在一起：
* 理解专家（大脑）：基于Qwen-VL，负责理解环境和指令。
* 视频生成专家（想象力）：基于Wan 2.2，负责推演未来画面。
* 动作专家（小脑）：负责具体的运动控制。

通过Tri-model Joint Attention，三位专家可以在同一注意力层中实时交换信息，赋予机器人“感知-预测-决策”的闭环能力。

利用潜动作解决数据难题

训练此类模型面临数据挑战：机器人真机数据昂贵稀少，而互联网海量视频缺乏动作标签。Motus的解决方案是引入潜动作（Latent Action）。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

研究团队利用光流技术（Optical Flow）捕捉视频中像素级的运动轨迹，并通过Delta Action机制将这些像素变化“翻译”成机器人的动作趋势。这类似于让机器人通过观察视频中的动作轨迹来学习“招式”，从而能够利用互联网视频、人类第一视角视频等数据，提取通用的物理交互先验。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

基于数据金字塔和潜动作，Motus构建了一套三阶段训练流程：
1. 视频生成预训练：利用多机器人轨迹和人类操作视频微调视频生成专家，使其能根据条件帧和语言指令生成合理的操作视频。
2. 潜动作预训练：在冻结视觉语言模型的情况下，用视频、语言和潜动作同时预训练三个专家，充分注入通用运动先验。
3. 特定本体微调：利用目标机器人的真机数据对Motus进行整体微调，使其适应特定下游任务。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

物理世界中的Scaling Law

实验结果表明，Scaling Law在物理世界中得以验证。在仿真基准RoboTwin 2.0的50个通用任务中，Motus的平均成功率达到了88%。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

特别是在高难度的“叠三个碗”任务中，Motus的成功率从基线模型的不足16%大幅提升至95%。

更关键的是其扩展曲线（Scaling Curves）所展现的趋势。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

△ 上图为数据量扩展曲线，下图为任务数量扩展曲线。红色为Motus，蓝色为Pi-0.5。

随着训练任务数量增加，传统模型（Pi-0.5）的性能因过拟合而下降，而Motus的性能持续上升。这证明，只要模型架构足够统一、数据来源足够多样，具身智能也能像大语言模型一样，涌现出跨任务的通用泛化能力。

在真机测试中，Motus在AC-One和Agilex-Aloha-2等机械臂平台上均表现出良好的适应性，其数据效率相较基线模型提升了13.55倍。

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

△ 左：AC-One机械臂测试；右：Agilex-Aloha-2机械臂测试。

团队介绍

Motus由生数科技与清华大学联合发布，共同第一作者为：
* 毕弘喆：清华大学计算机系TSAIL实验室二年级硕士生，研究方向为具身智能基础模型，曾获CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
* 谭恒楷：清华大学计算机系TSAIL实验室三年级博士生，主攻视频世界模型和具身大模型，曾获NOI银牌，参与RDT、Vidar等多个重要项目。

目前，Motus的代码与模型权重均已开源。

此外，团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等，均来自清华TSAIL实验室（朱军教授课题组）。

作为联合发布方，生数科技此次开源Motus，也展现了其在世界模型领域的战略布局。生数科技认为，视频大模型是通往AGI的核心路径，因为视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的诞生，正是这一技术理念下的重要成果。

Motus标志着机器人从“机械执行”向“端到端智能”的跨越，也推动了整个行业从单点技术突破走向统一基座的发展。其背后是产学研协作产生的巨大化学反应：生数科技在多模态大模型上的深厚积累，结合清华大学团队的顶尖算法能力，共同催生了这一统一的世界模型。

事实上，生数科技与清华大学在该领域的探索已领先行业。团队于2025年7月便发表了Vidar具身视频模型的研究，而Motus则于2025年12月完成全部开源并发布论文，均早于行业同类进展。

目前，Motus已全量开源。

论文地址：
https://arxiv.org/abs/2512.13030

项目地址：
https://motus-robotics.github.io/motus

开源仓库：
https://github.com/thu-ml/Motus

模型权重：
https://huggingface.co/motus-robotics

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20485

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

一个架构统一五种范式

利用潜动作解决数据难题

物理世界中的Scaling Law

△ 上图为数据量扩展曲线，下图为任务数量扩展曲线。红色为Motus，蓝色为Pi-0.5。

△ 左：AC-One机械臂测试；右：Agilex-Aloha-2机械臂测试。

团队介绍

相关推荐

Vibe Coding革命：从代码苦力到AI导演，GitHub神级指南引领开发新范式

2026年重塑工作流自动化：n8n的15大开源AI应用场景解析

从Clawdbot到Moltbot：AI项目爆火背后的商标风波与Agent自主进化启示录

MiroFish：多智能体博弈推演，AI如何预见特斯拉财报走势？

从戏仿到开源巨兽：OpenClaw的蜕变之路与商业化前瞻