特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

离开特斯拉“擎天柱”团队创业一年多后,杨硕首次公开其研究成果。

作为Mondo Robotics(妙动科技)的联合创始人兼CTO,杨硕及其团队在过去一年里潜心研究一个核心课题:如何利用视频数据训练机器人,使其能够以更少的数据学习,实现高水平、可泛化的动作控制,从而解决现有视觉-语言-动作模型在物理世界理解上的不足。

近日,该团队发布了题为《DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control》的论文,正式介绍了他们的解决方案——一个名为DiT4DiT的智能模型。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

DiT4DiT的核心在于将视频动态与机器人动作进行联合建模。它通过一个专有的目标函数,实现了从视频到控制指令的端到端训练。据称,这是世界模型首次在人形机器人平台上成功落地应用。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:DiT4DiT模型框架示意图)

什么是DiT4DiT?

简而言之,DiT4DiT是一个端到端的机器人学习框架,它将视频扩散模型动作扩散模型整合到一个级联架构中。该研究有两个关键设计:中间去噪三时间步方案

核心设计一:中间去噪

传统方法通常需要视频模型先生成完整的未来场景视频,机器人再据此推断动作。DiT4DiT则采用了“中间去噪”策略:在视频生成模型“去噪”构建未来画面的中途,提取关键的运动特征,并立即用这些特征指导动作生成。

以一个生活化任务“将杯子放入抽屉”为例:
* 传统方法:机器人需等待大脑“构思”出“杯子被放入抽屉”的完整画面,再规划动作。
* 中间去噪:机器人刚“构思”到“杯子移动到抽屉上方”这一关键步骤时,就提取该信息,直接推导出“伸手并移动”的动作,无需等待整个画面完成。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:中间去噪机制与传统方法的对比)

具体过程分为三步:
1. 视频去噪:视频模型开始处理初始画面,逐步去除噪点,构建清晰的未来帧。
2. 特征提取:通过一个“钩子”机制,在去噪过程的特定阶段(非起始或结尾),从模型的中间层提取物体运动的关键特征。
3. 动作生成:将这些中间特征直接传递给动作模型,生成精确的控制指令。

研究通过消融实验得出两个重要结论:
* 提取位置:从视频扩散模型第18层(中间偏深层)提取的特征效果最佳。
* 提取时机:仅进行1步去噪后提取的特征效果最好。

这两个结论的底层逻辑一致:旨在避开“表层无价值的语义信息”和“过度具体的像素细节”的干扰
* 浅层特征可能仅编码了“红色、圆形”等外观属性,但无助于理解“放入”这一动作。
* 深层特征可能过度关注像素级细节(如杯口反光点的精确像素),却丢失了“靠近目标”这一核心运动规律。
* 进行1步去噪提取的“半成品”特征,更能捕捉到“将物体移向容器”这类通用物理规律,而非特定物体的外观,从而在面对不同颜色、形状的杯子时,机器人仍能正确执行任务。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:不同网络层及去噪步数对特征提取效果的影响)

核心设计二:三时间步方案

为了协调视频生成(追求快速)与动作预测(需要细致学习)这两个任务的不同节奏,避免相互干扰,DiT4DiT引入了三个独立的时间步:
* 视频生成时间步:让视频模型以自己的均匀节奏学习生成未来画面。
* 特征提取时间步:以固定节奏从视频模型中截取稳定的中间特征,作为沟通桥梁。
* 动作生成时间步:让动作模型聚焦于关键节奏,学习根据特征生成精确动作。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:三时间步训练方案示意图)

这种设计让两个子任务能在各自最优的节奏下工作,并通过固定的特征提取步实现高效协同。实验表明,该方案使模型收敛速度提升7倍,数据效率高出10倍以上

为何采用此方案?

DiT4DiT的另一个突破在于其硬件配置的简化:模型仅使用机器人头部的主视角相机画面进行训练与推理,未使用腕部相机。这使其成为世界模型在人形机器人上更接近实际部署场景的方案。

此前,业内已有在机械臂上应用的世界模型,但尚未在人形机器人上成功运行。尽管存在如宇树UnifoLM等使用多相机(头、手部)的方案,但DiT4DiT证明了仅凭主视角相机,在World Model范式下也能达到同等甚至更好的效果。

这一研究旨在解决机器人学习中的两大痛点:
1. 传统VLA模型的物理理解缺失:主流视觉-语言-动作模型基于静态图文数据训练,缺乏对动态物理规律(如物体运动、碰撞反应)的内在理解。这导致机器人学习效率低下,泛化能力差,面对新物体或环境时常需重新学习。
2. 生成式视频模型的潜力未充分挖掘:以往研究仅将视频模型作为辅助工具,用于生成训练数据或提取简单特征,从未让其直接指导机器人动作生成。而生成式视频模型天生蕴含对物理过程的理解,能极大提升学习效率和零样本泛化能力。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型
(图示:DiT4DiT与传统VLA模型学习方式的对比)

实验表现

研究团队在宇树科技G1人形机器人上部署了DiT4DiT,并在插花、打包、叠杯子等7个场景任务中进行了测评。结果显示,其性能全面优于预训练的GR00T-N1.5模型及参数规模匹配的Qwen3DiT基准模型。

在效率方面,参数量约20亿的DiT4DiT可在RTX 4090消费级显卡上实现6Hz的推理速度。相比之下,近期另一种方案Cosmos Policy需使用H100专业算力卡才能达到1Hz的推理效率。这表明DiT4DiT具备更好的在机器人端侧芯片上部署的潜力。

论文团队介绍

作者团队与创业背景

本研究的作者团队共七人,分别来自妙动科技、香港科技大学(广州)及香港科技大学。

其中,Teli Ma、Jia Zheng 与 Zifan Wang 同时隶属于妙动科技与香港科技大学(广州)。

香港科技大学教授梁俊卫与杨硕为本文的共同通讯作者,负责论文的整体方向把控、实验设计与学术指导。

杨硕早年曾任职于大疆,担任技术总监,后赴卡内基梅隆大学(CMU)深造并获得博士学位。毕业后,他加入特斯拉 Optimus(擎天柱)人形机器人团队,是团队中知名的离职创业的中国成员之一。

妙动科技成立于2025年1月,法定代表人与董事长为高建荣。高建荣是杨硕在大疆时期的同事,曾是大疆历史上最年轻的高管,负责过供应链、市场部及教育业务单元,并与杨硕共同主导过“机甲大师”机器人赛事。

在高建荣注册公司约三个月后,杨硕正式从特斯拉离职,以联合创始人兼CTO的身份加入妙动科技。

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

技术路径与行业思考

作为知乎知名答主,杨硕在2025年底的一篇文章中,回顾了从美国到回国创业的经历,并提及了2024-2025年间机器人学界的一场关键争论:人形机器人的全身行走运动控制,究竟应优先采用模型预测控制(MPC)还是强化学习(RL)。

“2024年整年里,我在特斯拉使尽平生所学,想把MPC用在全尺寸人形机器人Optimus上……然而这些都没什么用。年尾,痛定思痛,切换成了时下最流行的强化学习RL技术,之后仅用了一个多月的时间就调出一个神经网络控制器让机器人跑步上山,此时我的震惊之情难以言表。”

杨硕表示,目前妙动科技的技术团队大量运用强化学习与深度学习技术,开发机器人的运动与操作控制器。“我们已经做出了一些很棒的产品原型,运动算法和人形操作模型方面的成果预计在2026年公布。” 本次发表的论文,正是其技术研发体系的一个重要体现。

模型反馈与后续计划

对于早期用户反馈的模型存在周期性卡顿现象,杨硕解释称:“这不是bug。这是因为VAM(视频动作模型)推断速度较慢,尽管有平滑机制,机器人仍会接收到不连续的轨迹指令。我们需要通过模型压缩来提升推理速度。”

研究团队表示,相关代码即将开源,论文链接已提供,可供深入查阅。

参考资料:
[1] 项目主页:https://dit4dit.github.io/
[2] 论文链接
[3] 作者知乎专栏

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型

特斯拉前高管创业首秀:DiT4DiT模型让机器人看视频学动作,人形机器人首次落地世界模型


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/27387

(0)
上一篇 2026年3月24日 上午11:07
下一篇 2026年3月25日 上午11:05

相关推荐

  • 生成式推荐新纪元:从腾讯广告算法大赛看全模态AI的产业变革

    在人工智能技术快速演进的浪潮中,推荐系统正经历一场从“判别式”到“生成式”的范式革命。近期落幕的腾讯广告算法大赛,以“全模态生成式推荐”为核心赛题,吸引了全球30个国家、8400多名技术精英、2800余支战队参与角逐。这场历时四个月的“千团大战”,不仅是一场技术实力的较量,更成为观察下一代推荐技术发展趋势的重要窗口。冠军由来自华中科技大学、北京大学、中国科学…

    2025年12月3日
    46500
  • 前GitHub CEO携6000万美元再创业!瞄准下一代开发者平台:用Agent管理Agent,IDE和编程语言或将过时?

    前GitHub首席执行官Thomas Dohmke离职后的创业动向,近日终于揭晓。其新创立的公司Entire,在秘密运营一段时间后,于两周前正式亮相,并宣布已完成高达6000万美元的种子轮融资,公司估值达3亿美元。 Thomas Dohmke在GitHub任职期间,曾成功推动GitHub Copilot的规模化发展。此次创业,他依然聚焦于开发者工具领域,但选…

    2026年2月26日
    28700
  • 具身智能领军学者苏昊加盟复旦,领衔建设通用物理智能研究院

    具身智能领军学者苏昊加盟复旦,领衔建设通用物理智能研究院 具身智能领域论文被引次数最高的华人学者,带着十七年的海外科研积淀,正式回国。 在第五届中国三维视觉大会(China3DV 2026)上,李飞飞弟子、ImageNet缔造者之一苏昊被复旦大学正式宣布引进。加盟后,他将担任复旦大学浩清特聘教授,并领衔建设通用物理智能研究院,出任院长一职。 复旦大学将苏昊的…

    3天前
    34500
  • 自动驾驶范式迁移:从数据闭环到训练闭环的深度技术解析

    在自动驾驶技术发展的关键转折点,行业正经历一场深刻的范式迁移。端到端架构虽曾统一技术栈并释放Scaling Law潜力,但随着数据瓶颈日益凸显,单纯依赖模仿学习已难以突破人类司机能力上限。ICCV 2025的最新动向显示,头部企业正形成共识:强化学习与云端生成式世界模型将成为下一代自动驾驶系统的核心基座。 特斯拉与理想汽车在顶会现场的实践分享,揭示了这一转型…

    2025年11月8日
    28300
  • 深夜对决!谷歌Gemini 3.1 Flash-Lite与OpenAI GPT‑5.3 Instant同日发布,性价比与性能全面升级

    深夜,科技界两大巨头谷歌与 OpenAI 相继发布新一代轻量化大模型:Gemini 3.1 Flash-Lite 与 GPT‑5.3 Instant,在性价比与核心性能上展开直接较量。 谷歌推出的 Gemini 3.1 Flash-Lite 被定位为 Gemini 3 系列中成本效益最高的模型,专为大规模智能任务设计。其定价为输入每百万 tokens 0.2…

    2026年3月4日
    36800