清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷

在涵盖50项通用任务的测试中,Motus的绝对成功率比国际顶尖模型Pi-0.5提升了35%以上,最高提升幅度达到40%。这使其控制的机器人具备了预测未来的能力。

例如,在Cloudflare人机验证任务中,面对形状不规则的曲面鼠标,机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动并完成精准点击。

在需要长程多步推理的孔明棋任务中,Motus展现了严密的逻辑闭环,一步步解开棋局。

在处理柔性物体的叠衣服任务中,Motus控制下的过程丝滑顺畅,仿佛具备了人类的触觉和预判能力。

研究团队认为,Motus的出现率先在具身智能领域验证了Scaling Law,复刻了当年GPT-2被定义为“无监督多任务学习者”的突破。

一个架构统一五种范式

过去,具身智能领域的VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等范式模型难以有机整合。Motus最大的亮点在于,在一个框架内统一了这五种范式。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

其核心技术是Mixture-of-Transformer(MoT)架构与Tri-model Joint Attention(三模态联合注意力)机制。这相当于将三个“专家”整合在一起:
* 理解专家(大脑):基于Qwen-VL,负责理解环境和指令。
* 视频生成专家(想象力):基于Wan 2.2,负责推演未来画面。
* 动作专家(小脑):负责具体的运动控制。

通过Tri-model Joint Attention,三位专家可以在同一注意力层中实时交换信息,赋予机器人“感知-预测-决策”的闭环能力。

利用潜动作解决数据难题

训练此类模型面临数据挑战:机器人真机数据昂贵稀少,而互联网海量视频缺乏动作标签。Motus的解决方案是引入潜动作(Latent Action)

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

研究团队利用光流技术(Optical Flow)捕捉视频中像素级的运动轨迹,并通过Delta Action机制将这些像素变化“翻译”成机器人的动作趋势。这类似于让机器人通过观察视频中的动作轨迹来学习“招式”,从而能够利用互联网视频、人类第一视角视频等数据,提取通用的物理交互先验。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

基于数据金字塔和潜动作,Motus构建了一套三阶段训练流程:
1. 视频生成预训练:利用多机器人轨迹和人类操作视频微调视频生成专家,使其能根据条件帧和语言指令生成合理的操作视频。
2. 潜动作预训练:在冻结视觉语言模型的情况下,用视频、语言和潜动作同时预训练三个专家,充分注入通用运动先验。
3. 特定本体微调:利用目标机器人的真机数据对Motus进行整体微调,使其适应特定下游任务。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

物理世界中的Scaling Law

实验结果表明,Scaling Law在物理世界中得以验证。在仿真基准RoboTwin 2.0的50个通用任务中,Motus的平均成功率达到了88%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

特别是在高难度的“叠三个碗”任务中,Motus的成功率从基线模型的不足16%大幅提升至95%

更关键的是其扩展曲线(Scaling Curves)所展现的趋势。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%
清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

上图为数据量扩展曲线,下图为任务数量扩展曲线。红色为Motus,蓝色为Pi-0.5。

随着训练任务数量增加,传统模型(Pi-0.5)的性能因过拟合而下降,而Motus的性能持续上升。这证明,只要模型架构足够统一、数据来源足够多样,具身智能也能像大语言模型一样,涌现出跨任务的通用泛化能力。

真机测试中,Motus在AC-One和Agilex-Aloha-2等机械臂平台上均表现出良好的适应性,其数据效率相较基线模型提升了13.55倍。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

左:AC-One机械臂测试;右:Agilex-Aloha-2机械臂测试。

团队介绍

Motus由生数科技与清华大学联合发布,共同第一作者为:
* 毕弘喆:清华大学计算机系TSAIL实验室二年级硕士生,研究方向为具身智能基础模型,曾获CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
* 谭恒楷:清华大学计算机系TSAIL实验室三年级博士生,主攻视频世界模型和具身大模型,曾获NOI银牌,参与RDT、Vidar等多个重要项目。

目前,Motus的代码与模型权重均已开源。

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

作为联合发布方,生数科技此次开源Motus,也展现了其在世界模型领域的战略布局。生数科技认为,视频大模型是通往AGI的核心路径,因为视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的诞生,正是这一技术理念下的重要成果。

Motus标志着机器人从“机械执行”向“端到端智能”的跨越,也推动了整个行业从单点技术突破走向统一基座的发展。其背后是产学研协作产生的巨大化学反应:生数科技在多模态大模型上的深厚积累,结合清华大学团队的顶尖算法能力,共同催生了这一统一的世界模型。

事实上,生数科技与清华大学在该领域的探索已领先行业。团队于2025年7月便发表了Vidar具身视频模型的研究,而Motus则于2025年12月完成全部开源并发布论文,均早于行业同类进展。

目前,Motus已全量开源。

论文地址:
https://arxiv.org/abs/2512.13030

项目地址:
https://motus-robotics.github.io/motus

开源仓库:
https://github.com/thu-ml/Motus

模型权重:
https://huggingface.co/motus-robotics


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20485

(0)
上一篇 5天前
下一篇 5天前

相关推荐

  • Vibe Coding革命:从代码苦力到AI导演,GitHub神级指南引领开发新范式

    Vibe Coding 的核心,是让开发者从编写每一行代码的“苦力”中解放出来,转而扮演“导演”的角色。 开发者只需专注于把握产品的核心逻辑、用户流程、审美与交互等宏观“感觉”(Vibe),而将具体的编码实现工作交给 Cursor、Windsurf、Trae 等 AI 编程工具来完成。正如 Andrej Karpathy 所言:“我几乎不写代码了,我只负责调…

    2025年12月27日
    9600
  • 2026年重塑工作流自动化:n8n的15大开源AI应用场景解析

    如果你还在手动在应用之间复制数据、为每个集成编写自定义脚本,或为 Zapier 支付高昂费用——你将很快明白为什么有超过 7,264+ 个 workflow 模板 和 55,000+ 名社区成员 选择用 n8n 来搭建他们的自动化流程。 n8n(读作“n-eight-n”)不只是另一个自动化工具。它是一个开源、可自托管的 workflow 平台,在无代码的易…

    2026年1月9日
    30600
  • 从Clawdbot到Moltbot:AI项目爆火背后的商标风波与Agent自主进化启示录

    短短几天时间,“大龙虾”Clawdbot便已火遍全网。其热度趋势图几乎呈直线上升,GitHub星标数在25日已接近7万,目前已达7.5万,堪称“原地起飞”。Clawdbot的热度甚至一度超越了Claude Code。然而,正所谓“人红是非多”,AI项目也不例外。在爆火的同时,Clawdbot在短短几天内经历了一场“改名风波”。27日下午,官方宣布Clawdb…

    2026年1月29日
    13200
  • MiroFish:多智能体博弈推演,AI如何预见特斯拉财报走势?

    数月前,一款名为 BettaFish(微舆)的开源项目悄然崛起,其惊艳的多智能体分析系统打破了互联网信息茧房,随后连续多日霸榜 GitHub Trending。 在持续多轮的暴涨后,项目已累积斩获 34000+ Star,成为当之无愧的现象级爆款。 项目爆火后,这位 20 岁的开发者并未止步。基于 BettaFish 看清当下的能力,他希望更进一步,让 AI…

    2026年1月13日
    12000
  • 从戏仿到开源巨兽:OpenClaw的蜕变之路与商业化前瞻

    谁曾料想,一个始于周末的业余项目,在短短两个月内便席卷开源社区——GitHub星标数突破10万,单周访问量高达200万。这个项目在三次更名后,最终以“OpenClaw”的身份尘埃落定。 名称的演变本身便是一段趣史。2025年11月诞生的“Clawd”,最初是对Claude的戏仿,直到Anthropic的法律团队介入。随后,Discord群组在凌晨五点头脑风暴…

    2026年1月31日
    6000