清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷

在涵盖50项通用任务的测试中,Motus的绝对成功率比国际顶尖模型Pi-0.5提升了35%以上,最高提升幅度达到40%。这使其控制的机器人具备了预测未来的能力。

例如,在Cloudflare人机验证任务中,面对形状不规则的曲面鼠标,机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动并完成精准点击。

在需要长程多步推理的孔明棋任务中,Motus展现了严密的逻辑闭环,一步步解开棋局。

在处理柔性物体的叠衣服任务中,Motus控制下的过程丝滑顺畅,仿佛具备了人类的触觉和预判能力。

研究团队认为,Motus的出现率先在具身智能领域验证了Scaling Law,复刻了当年GPT-2被定义为“无监督多任务学习者”的突破。

一个架构统一五种范式

过去,具身智能领域的VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等范式模型难以有机整合。Motus最大的亮点在于,在一个框架内统一了这五种范式。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

其核心技术是Mixture-of-Transformer(MoT)架构与Tri-model Joint Attention(三模态联合注意力)机制。这相当于将三个“专家”整合在一起:
* 理解专家(大脑):基于Qwen-VL,负责理解环境和指令。
* 视频生成专家(想象力):基于Wan 2.2,负责推演未来画面。
* 动作专家(小脑):负责具体的运动控制。

通过Tri-model Joint Attention,三位专家可以在同一注意力层中实时交换信息,赋予机器人“感知-预测-决策”的闭环能力。

利用潜动作解决数据难题

训练此类模型面临数据挑战:机器人真机数据昂贵稀少,而互联网海量视频缺乏动作标签。Motus的解决方案是引入潜动作(Latent Action)

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

研究团队利用光流技术(Optical Flow)捕捉视频中像素级的运动轨迹,并通过Delta Action机制将这些像素变化“翻译”成机器人的动作趋势。这类似于让机器人通过观察视频中的动作轨迹来学习“招式”,从而能够利用互联网视频、人类第一视角视频等数据,提取通用的物理交互先验。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

基于数据金字塔和潜动作,Motus构建了一套三阶段训练流程:
1. 视频生成预训练:利用多机器人轨迹和人类操作视频微调视频生成专家,使其能根据条件帧和语言指令生成合理的操作视频。
2. 潜动作预训练:在冻结视觉语言模型的情况下,用视频、语言和潜动作同时预训练三个专家,充分注入通用运动先验。
3. 特定本体微调:利用目标机器人的真机数据对Motus进行整体微调,使其适应特定下游任务。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

物理世界中的Scaling Law

实验结果表明,Scaling Law在物理世界中得以验证。在仿真基准RoboTwin 2.0的50个通用任务中,Motus的平均成功率达到了88%

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

特别是在高难度的“叠三个碗”任务中,Motus的成功率从基线模型的不足16%大幅提升至95%

更关键的是其扩展曲线(Scaling Curves)所展现的趋势。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%
清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

上图为数据量扩展曲线,下图为任务数量扩展曲线。红色为Motus,蓝色为Pi-0.5。

随着训练任务数量增加,传统模型(Pi-0.5)的性能因过拟合而下降,而Motus的性能持续上升。这证明,只要模型架构足够统一、数据来源足够多样,具身智能也能像大语言模型一样,涌现出跨任务的通用泛化能力。

真机测试中,Motus在AC-One和Agilex-Aloha-2等机械臂平台上均表现出良好的适应性,其数据效率相较基线模型提升了13.55倍。

清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

左:AC-One机械臂测试;右:Agilex-Aloha-2机械臂测试。

团队介绍

Motus由生数科技与清华大学联合发布,共同第一作者为:
* 毕弘喆:清华大学计算机系TSAIL实验室二年级硕士生,研究方向为具身智能基础模型,曾获CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
* 谭恒楷:清华大学计算机系TSAIL实验室三年级博士生,主攻视频世界模型和具身大模型,曾获NOI银牌,参与RDT、Vidar等多个重要项目。

目前,Motus的代码与模型权重均已开源。

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

作为联合发布方,生数科技此次开源Motus,也展现了其在世界模型领域的战略布局。生数科技认为,视频大模型是通往AGI的核心路径,因为视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的诞生,正是这一技术理念下的重要成果。

Motus标志着机器人从“机械执行”向“端到端智能”的跨越,也推动了整个行业从单点技术突破走向统一基座的发展。其背后是产学研协作产生的巨大化学反应:生数科技在多模态大模型上的深厚积累,结合清华大学团队的顶尖算法能力,共同催生了这一统一的世界模型。

事实上,生数科技与清华大学在该领域的探索已领先行业。团队于2025年7月便发表了Vidar具身视频模型的研究,而Motus则于2025年12月完成全部开源并发布论文,均早于行业同类进展。

目前,Motus已全量开源。

论文地址:
https://arxiv.org/abs/2512.13030

项目地址:
https://motus-robotics.github.io/motus

开源仓库:
https://github.com/thu-ml/Motus

模型权重:
https://huggingface.co/motus-robotics


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20485

(0)
上一篇 2026年2月6日 下午5:35
下一篇 2026年2月6日 下午5:56

相关推荐

  • 面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代

    你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…

    2026年2月4日
    33200
  • 超越基础RAG:构建面向学术论文的智能检索系统实战

    在AI工程实践中,你很快会意识到:并不存在一张可以完全照搬的“通用蓝图”。 对于检索增强生成(RAG)中的基础检索(“R”),标准流程包括文档分块、查询语义搜索、结果重排等。这套流程已广为人知。 但随着系统深入应用,一个问题会浮现:如果一个系统对一篇文档的理解仅限于几个零散的文本块,我们如何能称其为“智能”? 那么,如何确保系统获得足够的信息,从而做出“聪明…

    2026年1月19日
    21200
  • AI大模型周报:阿里Qwen3.5 Plus多模态突破、谷歌Gemini 3.1 Pro推理升级、蚂蚁Ling-2.5即时模型开源

    2月16日 【开源】阿里推出最新模型 Qwen3.5 Plus,支持文本、图像和视频多模态输入。 该模型在语言理解、逻辑推理、代码生成、智能体任务、图像理解、视频理解、图形用户界面(GUI)等多种任务中表现卓越,并支持内置工具调用。详情请参见:https://help.aliyun.com/zh/model-studio/text-generation 【开…

    2026年2月23日
    16200
  • 全国首部具身智能数据闭环标准启动,破解AI自主进化核心瓶颈

    “十五五”规划建议明确将具身智能列为六大未来产业之一,工信部亦将培育壮大具身智能等未来产业纳入2026年核心重点工作;北京、上海、杭州等多地同步跟进,专项政策密集出台、创新中心与产业联盟接连落地。国家战略与地方行动协同发力,共同推动具身智能从实验室示范迈向规模化产业落地新阶段。 数据闭环是具身智能区别于传统AI,实现自主学习和持续进化的核心命脉。 它推动企业…

    2026年2月12日
    21900
  • 微软Entra Agent ID:AI智能体的统一身份治理,开启零信任安全新纪元

    早在2025年5月的Microsoft Build大会上,微软首次公布了Entra Agent ID,为AI智能体引入统一的身份目录,让企业能够一站式发现和管理来自Copilot Studio、Azure AI Foundry等平台创建的智能体身份。这标志着AI智能体从“无序实验”向“企业级可控”迈出了关键一步。 随后,在2025年11月的Microsoft…

    2026年1月15日
    24700