MotionTrans：人类VR数据零样本迁移，开启机器人技能学习新范式

2025年11月5日上午11:46 • AI产业动态 • 阅读 342

近期，由清华大学、北京大学、武汉大学和上海交通大学联合研究团队发布的MotionTrans框架，在机器人技能学习领域取得了突破性进展。该研究由清华大学硕士生袁承博、武汉大学本科生周睿和北京大学博士生刘梦真主导，清华大学交叉信息研究院高阳助理教授担任通讯作者。这项研究的核心创新在于，首次实现了从人类VR数据到机器人的端到端零样本动作迁移，为机器人技能学习开辟了全新路径。

论文链接：https://arxiv.org/abs/2509.17759

项目链接：https://motiontrans.github.io/

代码地址：https://github.com/michaelyuancb/motiontrans

**技术框架深度解析**

MotionTrans框架的突破性体现在三个核心维度：零样本迁移能力、小样本精进机制以及架构无关的通用性设计。在零样本迁移方面，该框架无需任何同任务机器人演示数据，仅依靠人类佩戴VR设备采集的动作数据，就能让机器人学会倒水、拔插座、关电脑、收纳等13种日常操作任务。这种”看人会”到”我会做”的直接转换，打破了传统机器人学习对大量标注数据的依赖。

更值得关注的是其小样本精进机制。研究显示，在零样本基础上，仅需5-20条机器人本体数据进行微调，就能将任务成功率从平均20%提升至80%以上。这种”少量数据大幅提升”的特性，在实际部署中具有极高的实用价值。

**算法实现的技术创新**

MotionTrans算法框架的技术实现包含多个创新点。首先，团队自主研发了基于VR设备的人类数据采集系统，该系统能够同步采集第一人称视频、头部运动、腕部位姿和手部动作等多模态数据。在数据转换环节，团队通过坐标系变换和手部重定向技术，将人类动作数据精准映射到机器人运动空间。

关键技术突破包括：采用相对腕部动作表征来缩小人机动作差异，使用Dex-Retargeting工具实现手部动作的精确转换，以及提出人类-机器人统一的动作归一化方法。此外，团队还设计了赋权重的人类-机器人联合训练算法，通过动态调整不同数据源的训练权重，优化迁移效果。

**数据集构建与模型验证**

为支撑这项研究，团队构建了大规模的人类-机器人数据集，包含3200+轨迹、15个机器人任务、15个人类任务，覆盖超过10个真实生活场景。这种大规模、高多样性的数据集为模型的泛化能力提供了坚实基础。

在模型架构选择上，团队验证了MotionTrans框架的通用性。该框架与具体模型架构完全解耦，已在Diffusion Policy和VLA两大主流范式上实现”即插即用”。这种设计使得框架能够适应不同的技术路线，为后续研究提供了灵活的扩展空间。

**性能表现与实验验证**

零样本迁移实验结果显示，在全部13个任务上，机器人模型的平均成功率达到20%。其中Pick-and-Place系列任务表现尤为突出，成功率可达60%-80%。VLA模型在”关电脑”任务上更是实现了100%的一次性通关率。即便在成功率较低的任务中，如擦桌子任务，模型也学会了正确的动作方向与趋势，验证了框架能够捕获任务核心语义。