特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
离开特斯拉“擎天柱”团队创业一年多后,杨硕首次公开其研究成果。
作为Mondo Robotics(妙动科技)的联合创始人兼CTO,杨硕及其团队在过去一年里潜心研究一个核心课题:如何利用视频数据训练机器人,使其能够以更少的数据学习,实现高水平、可泛化的动作控制,从而解决现有视觉-语言-动作模型在物理世界理解上的不足。
近日,该团队发布了题为《DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control》的论文,正式介绍了他们的解决方案——一个名为DiT4DiT的智能模型。

DiT4DiT的核心在于将视频动态与机器人动作进行联合建模。它通过一个专有的目标函数,实现了从视频到控制指令的端到端训练。据称,这是世界模型首次在人形机器人平台上成功落地应用。

(图示:DiT4DiT模型框架示意图)
什么是DiT4DiT?
简而言之,DiT4DiT是一个端到端的机器人学习框架,它将视频扩散模型与动作扩散模型整合到一个级联架构中。该研究有两个关键设计:中间去噪与三时间步方案。
核心设计一:中间去噪
传统方法通常需要视频模型先生成完整的未来场景视频,机器人再据此推断动作。DiT4DiT则采用了“中间去噪”策略:在视频生成模型“去噪”构建未来画面的中途,提取关键的运动特征,并立即用这些特征指导动作生成。
以一个生活化任务“将杯子放入抽屉”为例:
* 传统方法:机器人需等待大脑“构思”出“杯子被放入抽屉”的完整画面,再规划动作。
* 中间去噪:机器人刚“构思”到“杯子移动到抽屉上方”这一关键步骤时,就提取该信息,直接推导出“伸手并移动”的动作,无需等待整个画面完成。

(图示:中间去噪机制与传统方法的对比)
具体过程分为三步:
1. 视频去噪:视频模型开始处理初始画面,逐步去除噪点,构建清晰的未来帧。
2. 特征提取:通过一个“钩子”机制,在去噪过程的特定阶段(非起始或结尾),从模型的中间层提取物体运动的关键特征。
3. 动作生成:将这些中间特征直接传递给动作模型,生成精确的控制指令。
研究通过消融实验得出两个重要结论:
* 提取位置:从视频扩散模型第18层(中间偏深层)提取的特征效果最佳。
* 提取时机:仅进行1步去噪后提取的特征效果最好。
这两个结论的底层逻辑一致:旨在避开“表层无价值的语义信息”和“过度具体的像素细节”的干扰。
* 浅层特征可能仅编码了“红色、圆形”等外观属性,但无助于理解“放入”这一动作。
* 深层特征可能过度关注像素级细节(如杯口反光点的精确像素),却丢失了“靠近目标”这一核心运动规律。
* 进行1步去噪提取的“半成品”特征,更能捕捉到“将物体移向容器”这类通用物理规律,而非特定物体的外观,从而在面对不同颜色、形状的杯子时,机器人仍能正确执行任务。

(图示:不同网络层及去噪步数对特征提取效果的影响)
核心设计二:三时间步方案
为了协调视频生成(追求快速)与动作预测(需要细致学习)这两个任务的不同节奏,避免相互干扰,DiT4DiT引入了三个独立的时间步:
* 视频生成时间步:让视频模型以自己的均匀节奏学习生成未来画面。
* 特征提取时间步:以固定节奏从视频模型中截取稳定的中间特征,作为沟通桥梁。
* 动作生成时间步:让动作模型聚焦于关键节奏,学习根据特征生成精确动作。

(图示:三时间步训练方案示意图)
这种设计让两个子任务能在各自最优的节奏下工作,并通过固定的特征提取步实现高效协同。实验表明,该方案使模型收敛速度提升7倍,数据效率高出10倍以上。
为何采用此方案?
DiT4DiT的另一个突破在于其硬件配置的简化:模型仅使用机器人头部的主视角相机画面进行训练与推理,未使用腕部相机。这使其成为世界模型在人形机器人上更接近实际部署场景的方案。
此前,业内已有在机械臂上应用的世界模型,但尚未在人形机器人上成功运行。尽管存在如宇树UnifoLM等使用多相机(头、手部)的方案,但DiT4DiT证明了仅凭主视角相机,在World Model范式下也能达到同等甚至更好的效果。
这一研究旨在解决机器人学习中的两大痛点:
1. 传统VLA模型的物理理解缺失:主流视觉-语言-动作模型基于静态图文数据训练,缺乏对动态物理规律(如物体运动、碰撞反应)的内在理解。这导致机器人学习效率低下,泛化能力差,面对新物体或环境时常需重新学习。
2. 生成式视频模型的潜力未充分挖掘:以往研究仅将视频模型作为辅助工具,用于生成训练数据或提取简单特征,从未让其直接指导机器人动作生成。而生成式视频模型天生蕴含对物理过程的理解,能极大提升学习效率和零样本泛化能力。

(图示:DiT4DiT与传统VLA模型学习方式的对比)
实验表现
研究团队在宇树科技G1人形机器人上部署了DiT4DiT,并在插花、打包、叠杯子等7个场景任务中进行了测评。结果显示,其性能全面优于预训练的GR00T-N1.5模型及参数规模匹配的Qwen3DiT基准模型。
在效率方面,参数量约20亿的DiT4DiT可在RTX 4090消费级显卡上实现6Hz的推理速度。相比之下,近期另一种方案Cosmos Policy需使用H100专业算力卡才能达到1Hz的推理效率。这表明DiT4DiT具备更好的在机器人端侧芯片上部署的潜力。
论文团队介绍
作者团队与创业背景
本研究的作者团队共七人,分别来自妙动科技、香港科技大学(广州)及香港科技大学。
其中,Teli Ma、Jia Zheng 与 Zifan Wang 同时隶属于妙动科技与香港科技大学(广州)。
香港科技大学教授梁俊卫与杨硕为本文的共同通讯作者,负责论文的整体方向把控、实验设计与学术指导。
杨硕早年曾任职于大疆,担任技术总监,后赴卡内基梅隆大学(CMU)深造并获得博士学位。毕业后,他加入特斯拉 Optimus(擎天柱)人形机器人团队,是团队中知名的离职创业的中国成员之一。
妙动科技成立于2025年1月,法定代表人与董事长为高建荣。高建荣是杨硕在大疆时期的同事,曾是大疆历史上最年轻的高管,负责过供应链、市场部及教育业务单元,并与杨硕共同主导过“机甲大师”机器人赛事。
在高建荣注册公司约三个月后,杨硕正式从特斯拉离职,以联合创始人兼CTO的身份加入妙动科技。

技术路径与行业思考
作为知乎知名答主,杨硕在2025年底的一篇文章中,回顾了从美国到回国创业的经历,并提及了2024-2025年间机器人学界的一场关键争论:人形机器人的全身行走运动控制,究竟应优先采用模型预测控制(MPC)还是强化学习(RL)。
“2024年整年里,我在特斯拉使尽平生所学,想把MPC用在全尺寸人形机器人Optimus上……然而这些都没什么用。年尾,痛定思痛,切换成了时下最流行的强化学习RL技术,之后仅用了一个多月的时间就调出一个神经网络控制器让机器人跑步上山,此时我的震惊之情难以言表。”
杨硕表示,目前妙动科技的技术团队大量运用强化学习与深度学习技术,开发机器人的运动与操作控制器。“我们已经做出了一些很棒的产品原型,运动算法和人形操作模型方面的成果预计在2026年公布。” 本次发表的论文,正是其技术研发体系的一个重要体现。
模型反馈与后续计划
对于早期用户反馈的模型存在周期性卡顿现象,杨硕解释称:“这不是bug。这是因为VAM(视频动作模型)推断速度较慢,尽管有平滑机制,机器人仍会接收到不连续的轨迹指令。我们需要通过模型压缩来提升推理速度。”
研究团队表示,相关代码即将开源,论文链接已提供,可供深入查阅。
参考资料:
[1] 项目主页:https://dit4dit.github.io/
[2] 论文链接
[3] 作者知乎专栏


关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27387


