人类数据革命:灵初智能如何用10万小时操作数据训练机器人

2026年,“世界模型”已成为具身智能领域最炙手可热的概念之一。众多企业纷纷将自身技术路线标榜为“机器人世界模型”,试图借助可学习的环境模型来大幅提升机器人的训练效率。

灵初智能(PsiBot)也常被归入这一叙事框架。然而,在灵初联合创始人陈源培看来,世界模型并非灵初的核心追求,它仅仅是服务于数据迁移的一种工具。“我认为做世界模型不算转型。世界模型只是一个工具。我们从第一天开始,做的就是人类数据。”

灵初真正聚焦的核心问题是:真实的人类操作数据,能否被规模化地转化为机器人训练数据?

在灵初成立之前,陈源培就已着手探索利用人类手部运动数据来训练灵巧操作。这项研究成果后来发表于 CoRL 2024,并成为灵初押注人类数据路线的重要技术基石。如今,灵初通过更大规模的数据实践,给出了一个更为明确的判断:在10万小时量级上,人类数据已经能够大幅替代真机采集的数据。

在这一技术路线中,VLA、世界模型、强化学习、外骨骼手套都不是最终的终点。它们共同指向一个目标:构建一套从人类数据到机器人策略(policy)的完整转化管线。

人类数据革命:灵初智能如何用10万小时操作数据训练机器人

摩根士丹利研究(Morgan Stanley Research)的统计显示,截至2026年4月底,2026年全球人形机器人领域的VC融资额已超过2025年全年。随着资本加速涌入,具身智能行业的数据、模型与落地能力正在被重新估值。

一、从 Day One 开始的人类数据路线:从机器人中心到人类中心

具身智能的数据问题,本质上是在规模、质量和迁移效率之间寻求平衡。

过去几年,行业主流路线之一是遥操作(teleoperation)。通过同构或近似同构的遥操作设备,让人直接控制机器人或影子臂来采集数据。这类数据与机器人本体高度接近,迁移难度低,训练链路也相对直接。

然而,遥操作的问题同样明显:采集成本高昂、设备笨重、对场地依赖性强、操作员需要专门训练,因此很难获得足够大的数据规模。对于试图训练通用机器人能力的公司来说,这种“素材场”式的数据生产方式很快就会触及天花板。

另一类路线是自我数据(ego data),即利用摄像头采集人类第一视角的操作数据。它的成本更低,也更贴近真实的人类行为,但新的问题随之而来:人和机器人之间存在天然的鸿沟。人的关节结构、骨骼自由度、动作习惯以及视觉视角都与机器人截然不同。直接将这类数据用于机器人训练,往往会遇到迁移效率低、噪声大、动作不规范等难题。

灵初的判断是:迁移问题可以通过模型和算法管线来解决,但数据规模问题必须在采集方式上予以解决。

“我们当时设计这套手套,一个非常核心的原因就是尽量不影响人的日常工作。比如让一个收银员戴上我们的手套工作,他基本上不会受到什么影响。但你让他拿着两个夹爪工作,连扫码都扫不了。”

这意味着,灵初想进入的并非专门搭建的机器人素材场,而是真实的劳动场景:物流、仓储、收银、工厂等持续产生人类操作行为的场所。

这一路线与UMI等机器人中心(robot-centric)方案形成了鲜明对比。机器人中心方案通过形态更接近机器人夹爪的设备采集数据,迁移效率更高,但操作者的动作会受到限制,难以进入真实的劳动场景。灵初选择人类中心(human-centric)路线,接受更高的迁移难度,以换取更大的数据规模上限。

目前,灵初并行采集两类人类数据。

第一类是外骨骼手套数据。它通过机械连接捕捉手部和手臂动作,不依赖IMU,精度更高,也能记录更完整的双手双臂自由度。

第二类是纯视觉数据,也就是英伟达和模型厂商押注的自我数据(EGO)路线:通过头部和腕部摄像头记录人类操作过程,不使用手套,成本更低,规模化能力更强,但动作精度相对较弱。

在灵初的设计中,手套的自由度尽可能做高,这并非仅仅为了适配自家的灵巧手,而是为了提升数据的跨本体迁移能力。换句话说,灵初想要采集的不是绑定于某一个机器人硬件的数据,而是未来可以迁移到不同机器人本体上的人类操作数据。

二、W0 和 R2:用世界模型完成人类数据到机器人策略的迁移

人类数据路线的核心难点,并非采集,而是迁移。

人类动作天然带有噪声和不规范性,人的动力学也不同于机器人。灵初的解决方案是:利用强化学习,在世界模型中完成迁移。

灵初的系统主要由两个模块构成:W0 和 R2。

R2 是策略(policy),最终部署到机器人上,负责实际执行操作。W0 是世界模型(world model),更准确地说,是一个以动作为条件的世界模型:给定当前状态和动作,预测下一帧状态。

在训练阶段,W0 扮演一个可学习的仿真器。R2 并不直接在真实机器人上进行大量试错,而是在W0构建的环境里通过强化学习在线迭代。W0提供环境反馈,R2在其中不断探索,将人手动力学迁移到机器人动力学上,并生成新的训练数据,再反馈给R2,形成闭环。

部署阶段,W0 退场,机器人上只运行R2。

“如果模型训好了,自然就不需要W0了。W0是个仿真器,它是一个提升的过程,不是部署的一部分。”

这也是陈源培不愿意将灵初简单定义为“世界模型公司”的原因。在他看来,世界模型并非一个独立的方向,而是数据转化管线中的一个中间模块。它的作用不是替代真实世界,而是帮助人类数据完成到机器人策略的迁移。

“算法本身没那么重要,哪个好用就用哪个。我们更核心的还是人类数据,以及把这套数据转移成高质量机器人数据的管线。”

在这一体系中,数据质量也并不完全依赖人工审核。灵初将判断权交给模型本身:一条数据能否在世界模型里成功转换,能否让策略跑通,这就是筛选标准。能跑通的数据留下,跑不通的数据丢弃。随着模型能力的提升,数据筛选的边界也会动态变化。

陈源培认为,灵初在人类数据路线上的一个关键阶段性成果,是10万小时量级的内部验证。

“我们基本没有真机的素材场,真机数据非常非常少,靠人类数据也能做出跟那些采集了几万小时遥操作数据的公司差不多的效果。”

这指向了一个更核心的问题:机器人基础模型是否必须依赖大规模真机遥操作数据?

陈源培的判断是,真机数据仍然重要,但它不一定是唯一的燃料。如果人类数据采集足够规模化,迁移管线足够有效,那么大量真机数据可以被人类数据部分替代。真机数据更像是校准、验证和少量微调(fine-tuning)的补充,而不是全部数据来源。

这并不意味着人类数据天然等同于机器人数据。相反,人类数据要真正可用,必须经过采集系统、世界模型、强化学习、数据筛选和策略训练的完整管线。

灵初试图建立的,正是这套系统能力。

三、从数据集到落地:SynData、小全栈与路线边界

截至2026年5月13日,灵初智能 SynData 数据集在 Hugging Face 上的下载量已达到约1.46万次。

人类数据革命:灵初智能如何用10万小时操作数据训练机器人

Hugging Face链接:https://huggingface.co/datasets/PsiBotAI/SynData

这是基于R2和W0体系的新一代大规模真实世界多模态数据集,覆盖视觉、语言、动作等多个维度。依托自研外骨骼手套系统,SynData能够捕捉双手双臂完整自由度的高精度操作数据,同时结合裸手数据与自然人类交互行为,面向动作建模、操作学习、道具学习及多模态智能研究开放使用。

对灵初而言,SynData是其技术路线的一次阶段性外化:以真实人类操作数据为底座,通过世界模型和强化学习完成迁移,再训练出可部署到机器人上的策略。

但从商业化阶段来看,陈源培并不认为行业已经进入“通用基模”阶段。

他将灵初当前的位置分为几个层次。

第一层是产能期。现阶段,灵初的收入主体仍然来自硬件,包括外骨骼手套、采集系统以及素材场建设。数据收入预计要到明年才会逐渐成为主体。

第二层是策略调整阶段。目前,机器人进入具体客户现场后,仍需针对具体任务、作业环境和节拍要求来调整策略。“真正不需要调整的通用基础模型,大概还要三到五年左右才能出现。”

第三层才是基础模型阶段。这是长期目标,并非当前能实现的状态。

这也解释了灵初为何选择“小全栈”路线。陈源培对“小全栈”的定义是:以模型为核心向下延伸,关键环节自主掌控,但只做到核心零部件层面。比如触觉传感器、精密减速器等部件,灵初选择外购,不会自主研发。

原因并非为了展示全栈能力,而是实际落地需求所迫。“你要做落地,硬件的稳定性、节拍要求与硬件高度耦合,现阶段没办法,只能自己干。”在目前阶段,机器人落地并非单纯的软件问题。一个策略能否稳定运行,取决于机器人本体、执行器、传感器、控制系统、任务节拍和场景约束。模型与硬件仍然高度绑定,只做模型很难实现真正的交付。

对于行业内的其他技术路线,陈源培的判断也比较清晰。关于Genesis等近期备受关注的机器人演示,他认为不必神化,也不应否定。“如果我们用那套硬件来训练,那些演示我们同样能做出来。”

对于仿真技术,他相对悲观。在他看来,仿真是重要工具,但如果指望仿真本身出现巨大突破,并单独解决真实物理世界中的接触、长尾和高精度操作问题,概率并不高。

那么,人类数据这条路线会不会被证伪?

陈源培认为,如果这条路线最终被证伪,大概只有两种可能:第一,仿真技术取得巨大突破,能够低成本生成足够真实、多样且可迁移的数据;第二,某家公司拥有足够强的资金和工程能力,把真机数据飞轮真正运转起来。

相比之下,他认为第二种可能性更高。

在他看来,人类数据路线真正需要证明的,不是人类数据比真机数据更干净,而是在规模、成本、迁移效率和泛化能力之间,能否形成更优的综合解决方案。

这条路线的护城河也不仅仅是数据量。

“算法其实没有秘密。但数据,包括整个数据梳理的管线、积累和处理的方法,会影响你很长一段时间。有些人踩了三年的数据,你想马上追上来,非常难。”

数据之外,还有组织能力。

“整个组织的文化、结构、价值观,也很重要。”

从论文到公司,陈源培认为灵初一直在做同一件事:让人类数据能被机器人用起来。VLA、世界模型、强化学习都是工具,真正的方向是实现通用机器人能力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34482

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

    3D模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本,训练效果有待提升。 近年来,利用成熟海量的2D实例分割数据来辅助实现3D实例分割成为一个极具潜力的研究方向,但实现思路不尽相同。 近日,IDEA计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)的张磊团队提出了一种名为OVSeg3R的开集3D实例分割学习新…

    2026年1月17日
    36800
  • 智能的两种演化路径:从生物生存到商业优化的本质差异

    近日,OpenAI联合创始人、前特斯拉AI高级总监Andrej Karpathy在社交媒体上发表了一系列关于智能本质的深刻见解,引发了科技界的广泛讨论。他提出的核心观点挑战了我们对人工智能的传统认知框架:我们一直用理解动物智能的方式来理解AI,但这可能是一个根本性的错误。 Karpathy明确指出:“智能的空间很大,而动物智能(我们唯一了解的智能)只是其中的…

    2025年11月23日
    36800
  • AlphaFold:从蛋白质折叠到生命系统建模的AI革命

    蛋白质结构预测曾是结构生物学领域长达半个世纪的难题,传统实验方法如X射线晶体学和冷冻电镜不仅耗时漫长(通常需要数月甚至数年),且成本高昂(单次实验可达数百万美元),严重制约了生命科学研究的进展。这一瓶颈在2020年被DeepMind开发的AlphaFold 2彻底打破——该模型仅凭氨基酸序列就能在几分钟内预测出高精度的蛋白质三维结构,其预测结果与实验数据的误…

    2025年11月27日
    55400
  • 从“魔法”到“分析师”:AI Agent工作流如何重塑2026年智能系统

    第一次接触大型语言模型时,许多人感觉它近乎“魔法”。 你输入一个提示,它给出回应。交互到此结束。 对于快速答疑、头脑风暴或生成一段文本,这种“一次性交互”已足够好。问一个问题,得到一个回复,然后继续下一件事。简单、高效、令人满意。 但当我们开始要求 AI 去完成真正的工作时,问题便暴露出来。 让 AI 去分析市场趋势、交叉核对信息来源、综合洞见,并将这些内容…

    2026年2月2日
    44300
  • Google Gemini模型矩阵再添新军:Nano Banana 2 Flash与Gemini 3.0 Flash的战略布局与技术解析

    近期,Google在AI模型领域的动态再次引发行业关注。继Nano Banana 2 Pro(内部代号Ketchup)之后,代码库中出现的“Mayo”指向了即将发布的Nano Banana 2 Flash版本。这一系列动作不仅揭示了Google在模型优化上的持续投入,更展现了其通过分层策略扩大Gemini生态系统覆盖范围的战略意图。 从技术架构来看,Nano…

    2025年12月8日
    39400