特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

离开特斯拉“擎天柱”团队创业一年多后,杨硕首次公开其研究成果。

作为Mondo Robotics(妙动科技)的联合创始人兼CTO,杨硕及其团队在过去一年里潜心研究一个核心课题:如何利用视频数据训练机器人,使其能够以更少的数据学习,实现高水平、可泛化的动作控制,从而解决现有视觉-语言-动作模型在物理世界理解上的不足。

近日,该团队发布了题为《DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control》的论文,正式介绍了他们的解决方案——一个名为DiT4DiT的智能模型。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

DiT4DiT的核心在于将视频动态与机器人动作进行联合建模。它通过一个专有的目标函数,实现了从视频到控制指令的端到端训练。据称,这是世界模型首次在人形机器人平台上成功落地应用。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:DiT4DiT模型框架示意图)

什么是DiT4DiT?

简而言之,DiT4DiT是一个端到端的机器人学习框架,它将视频扩散模型动作扩散模型整合到一个级联架构中。该研究有两个关键设计:中间去噪三时间步方案

核心设计一:中间去噪

传统方法通常需要视频模型先生成完整的未来场景视频,机器人再据此推断动作。DiT4DiT则采用了“中间去噪”策略:在视频生成模型“去噪”构建未来画面的中途,提取关键的运动特征,并立即用这些特征指导动作生成。

以一个生活化任务“将杯子放入抽屉”为例:
* 传统方法:机器人需等待大脑“构思”出“杯子被放入抽屉”的完整画面,再规划动作。
* 中间去噪:机器人刚“构思”到“杯子移动到抽屉上方”这一关键步骤时,就提取该信息,直接推导出“伸手并移动”的动作,无需等待整个画面完成。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:中间去噪机制与传统方法的对比)

具体过程分为三步:
1. 视频去噪:视频模型开始处理初始画面,逐步去除噪点,构建清晰的未来帧。
2. 特征提取:通过一个“钩子”机制,在去噪过程的特定阶段(非起始或结尾),从模型的中间层提取物体运动的关键特征。
3. 动作生成:将这些中间特征直接传递给动作模型,生成精确的控制指令。

研究通过消融实验得出两个重要结论:
* 提取位置:从视频扩散模型第18层(中间偏深层)提取的特征效果最佳。
* 提取时机:仅进行1步去噪后提取的特征效果最好。

这两个结论的底层逻辑一致:旨在避开“表层无价值的语义信息”和“过度具体的像素细节”的干扰
* 浅层特征可能仅编码了“红色、圆形”等外观属性,但无助于理解“放入”这一动作。
* 深层特征可能过度关注像素级细节(如杯口反光点的精确像素),却丢失了“靠近目标”这一核心运动规律。
* 进行1步去噪提取的“半成品”特征,更能捕捉到“将物体移向容器”这类通用物理规律,而非特定物体的外观,从而在面对不同颜色、形状的杯子时,机器人仍能正确执行任务。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:不同网络层及去噪步数对特征提取效果的影响)

核心设计二:三时间步方案

为了协调视频生成(追求快速)与动作预测(需要细致学习)这两个任务的不同节奏,避免相互干扰,DiT4DiT引入了三个独立的时间步:
* 视频生成时间步:让视频模型以自己的均匀节奏学习生成未来画面。
* 特征提取时间步:以固定节奏从视频模型中截取稳定的中间特征,作为沟通桥梁。
* 动作生成时间步:让动作模型聚焦于关键节奏,学习根据特征生成精确动作。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:三时间步训练方案示意图)

这种设计让两个子任务能在各自最优的节奏下工作,并通过固定的特征提取步实现高效协同。实验表明,该方案使模型收敛速度提升7倍,数据效率高出10倍以上

为何采用此方案?

DiT4DiT的另一个突破在于其硬件配置的简化:模型仅使用机器人头部的主视角相机画面进行训练与推理,未使用腕部相机。这使其成为世界模型在人形机器人上更接近实际部署场景的方案。

此前,业内已有在机械臂上应用的世界模型,但尚未在人形机器人上成功运行。尽管存在如宇树UnifoLM等使用多相机(头、手部)的方案,但DiT4DiT证明了仅凭主视角相机,在World Model范式下也能达到同等甚至更好的效果。

这一研究旨在解决机器人学习中的两大痛点:
1. 传统VLA模型的物理理解缺失:主流视觉-语言-动作模型基于静态图文数据训练,缺乏对动态物理规律(如物体运动、碰撞反应)的内在理解。这导致机器人学习效率低下,泛化能力差,面对新物体或环境时常需重新学习。
2. 生成式视频模型的潜力未充分挖掘:以往研究仅将视频模型作为辅助工具,用于生成训练数据或提取简单特征,从未让其直接指导机器人动作生成。而生成式视频模型天生蕴含对物理过程的理解,能极大提升学习效率和零样本泛化能力。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:DiT4DiT与传统VLA模型学习方式的对比)

实验表现

研究团队在宇树科技G1人形机器人上部署了DiT4DiT,并在插花、打包、叠杯子等7个场景任务中进行了测评。结果显示,其性能全面优于预训练的GR00T-N1.5模型及参数规模匹配的Qwen3DiT基准模型。

在效率方面,参数量约20亿的DiT4DiT可在RTX 4090消费级显卡上实现6Hz的推理速度。相比之下,近期另一种方案Cosmos Policy需使用H100专业算力卡才能达到1Hz的推理效率。这表明DiT4DiT具备更好的在机器人端侧芯片上部署的潜力。

论文团队介绍

作者团队与创业背景

本研究的作者团队共七人,分别来自妙动科技、香港科技大学(广州)及香港科技大学。

其中,Teli Ma、Jia Zheng 与 Zifan Wang 同时隶属于妙动科技与香港科技大学(广州)。

香港科技大学教授梁俊卫与杨硕为本文的共同通讯作者,负责论文的整体方向把控、实验设计与学术指导。

杨硕早年曾任职于大疆,担任技术总监,后赴卡内基梅隆大学(CMU)深造并获得博士学位。毕业后,他加入特斯拉 Optimus(擎天柱)人形机器人团队,是团队中知名的离职创业的中国成员之一。

妙动科技成立于2025年1月,法定代表人与董事长为高建荣。高建荣是杨硕在大疆时期的同事,曾是大疆历史上最年轻的高管,负责过供应链、市场部及教育业务单元,并与杨硕共同主导过“机甲大师”机器人赛事。

在高建荣注册公司约三个月后,杨硕正式从特斯拉离职,以联合创始人兼CTO的身份加入妙动科技。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

技术路径与行业思考

作为知乎知名答主,杨硕在2025年底的一篇文章中,回顾了从美国到回国创业的经历,并提及了2024-2025年间机器人学界的一场关键争论:人形机器人的全身行走运动控制,究竟应优先采用模型预测控制(MPC)还是强化学习(RL)。

“2024年整年里,我在特斯拉使尽平生所学,想把MPC用在全尺寸人形机器人Optimus上……然而这些都没什么用。年尾,痛定思痛,切换成了时下最流行的强化学习RL技术,之后仅用了一个多月的时间就调出一个神经网络控制器让机器人跑步上山,此时我的震惊之情难以言表。”

杨硕表示,目前妙动科技的技术团队大量运用强化学习与深度学习技术,开发机器人的运动与操作控制器。“我们已经做出了一些很棒的产品原型,运动算法和人形操作模型方面的成果预计在2026年公布。” 本次发表的论文,正是其技术研发体系的一个重要体现。

模型反馈与后续计划

对于早期用户反馈的模型存在周期性卡顿现象,杨硕解释称:“这不是bug。这是因为VAM(视频动作模型)推断速度较慢,尽管有平滑机制,机器人仍会接收到不连续的轨迹指令。我们需要通过模型压缩来提升推理速度。”

研究团队表示,相关代码即将开源,论文链接已提供,可供深入查阅。

参考资料:
[1] 项目主页:https://dit4dit.github.io/
[2] 论文链接
[3] 作者知乎专栏

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27387

(0)
上一篇 1天前
下一篇 20小时前

相关推荐

  • AI伦理边界:xAI“虚拟女友”Ani背后的生物数据争议与行业警示

    在生成式AI技术狂飙突进的当下,埃隆·马斯克旗下xAI公司推出的虚拟伴侣Ani引发了前所未有的伦理争议。这款金发双马尾的动漫风格AI女友,表面上代表着AI情感交互的前沿探索,实则暴露了科技公司在数据采集与隐私保护之间的严重失衡。本文将从技术实现、伦理困境、行业影响三个维度,深入剖析这一事件背后的深层问题。 从技术架构来看,Ani代表了当前多模态AI系统的高度…

    2025年11月8日
    25800
  • 国产AI生图新标杆:Vidu Q2如何以“业界最强一致性”重塑创作流程

    在AI图像生成领域,细节把控与一致性控制一直是技术突破的核心难点。即便是业界知名的Nano Banana Pro等工具,在处理多图融合、主体替换等复杂任务时,仍常出现风格断裂、元素错位等问题,导致输出结果与预期存在显著差距。例如,当用户尝试将三张毫无关联的图片进行融合时,生成效果往往不尽如人意: 。这种一致性失控的现象,不仅影响创作效率,更限制了AI技术在专…

    2025年12月1日
    28900
  • 《扩散模型原理》专著深度解析:统一理论框架如何重塑生成式AI的未来格局

    扩散模型作为生成式人工智能领域的革命性技术,自2020年以来已彻底改变了图像、音频、视频乃至3D内容的生成范式。然而,其复杂的数学基础和分散的研究视角,使得从业者往往难以系统掌握其核心原理。由Sony AI、OpenAI和斯坦福大学联合撰写的460页专著《The Principles of Diffusion Models》,正是为解决这一困境而诞生的权威指…

    2025年10月29日
    23700
  • 高德空间智能:从地图导航到物理世界建模,如何重塑Robotaxi与AGI路径

    近日,一张神秘海报在科技圈引发广泛讨论,最终揭晓为高德与小鹏汽车达成合作,共同面向全球提供Robotaxi服务。这一合作不仅是高德将“空间智能+出行服务能力”整合开放的关键一步,更标志着“空间智能”这一理念从概念走向现实的重要起点。 高德此次合作背后,是其从传统地图导航向空间智能全面转型的战略深化。过去几个月,高德先后发布“小高老师”、“高德扫街榜”等产品,…

    2025年11月6日
    20000
  • GRPO-Guard:破解流模型强化学习过优化难题,重塑视觉生成对齐新范式

    在视觉生成领域,强化学习从人类反馈(RLHF)及其变体已成为提升模型与人类偏好对齐的关键技术。其中,基于梯度的奖励策略优化(GRPO)因其高效性,在图像和视频生成的流模型中展现出显著潜力,如FlowGRPO和DanceGRPO等应用,已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而,近期研究发现,GRPO在流模型训练中存在一个隐蔽却致命的问题——…

    2025年11月13日
    20000