最近一段时间,许多具身智能领域的公司都感受到了紧迫感。
大洋彼岸,Generalist AI 近期公布了一项引发行业关注的进展:其基于约 50 万小时真实世界人类行为数据训练的 GEN-1 模型,在若干任务上的成功率超过 99%。其创始人、前 DeepMind 高级研究科学家 Pete Florence 随后表示:“当数据规模足够大,且团队能够完整掌控基础模型时,技术边界会以更快速度被推进。”这被视为对其此前关于具身智能尺度定律判断的进一步验证。

然而,更多公司仍处在追赶规模的道路上。行业普遍认为,当数据规模与质量跨过某个阈值后,模型性能随规模扩大的提升规律有望趋于稳定。
但在数据量激增的今天,许多公司困在了数据质量问题上。正如业内人士所言,当前许多公司看不到清晰的尺度定律效应,正是因为数据质量不佳、噪声过多。“以前 80% 的工作在模型算法上,现在 80% 的工作在数据上。”
这个判断并不夸张。离身智能可以依赖互联网上经人类无意识“编译”过的语料进行快速训练,但物理世界的数据从未被系统编译过。那些蕴含在操作经验中的规律,深埋在噪声里,未经组织。机器无法自动从世界中习得能力,人的经验也不会自然流入机器,中间必须经过繁琐的人工采集、转译与组织流程,之后才能谈及“训练”。这正是具身模型迭代周期往往以月甚至年计算的原因。其复杂性不容小觑。
但也正是这份复杂性,在物理世界与智能模型之间,撕开了一道巨大的机会缝隙。谁能将混沌的物理世界数据,转化为结构清晰的训练输入,并构建起高效的反馈闭环,谁就有机会填补这一基础设施级的空白,站上增长快车道。
这是一个巨大的新兴赛道。
近期崭露头角的智域基石,便是从这一层生长出来的公司。虽然成立仅三个月,该公司已获得多家投资机构注资,在手订单规模可观。

与延续传统“标注外包”思路、依靠堆叠人力和场地采集数据的公司不同,智域基石更关注如何构建一套系统化能力,将人类在物理世界中的劳动数字化,并以更低成本将原始数据转换为模型的训练输入。
为此,他们提出了“数据编译”的概念。所谓数据编译,就是为物理世界中高熵、异步、多模态的原始数据,建立一套自动化的“精炼管线”——通过去噪、对齐、拆解为“技能原子”,并打上可追溯的语义标签,让算法真正理解物理规律与动作意图,最终凝结为可用模型。

如同操作系统为硬件和应用之间提供标准接口,这个编译层旨在为物理世界与模型、本体能力之间定义一套“编译器”式的标准。这并非简单的数据采集外包,而是工业级体系的构建。谁能建立起这套体系,谁便有机会成为模型训练上游的“能力入口”,从低附加值的劳务角色,跃升为高价值的基础设施层。
为了解智域基石的具体路径与优势,我们与其创始团队进行了深入交流。
物理世界,不接受幻觉
在代码生成模型已成为常见工具的今天,我们已习惯“一个指令,生成万行代码”的工作方式。但在物理世界,类似的畅想(例如一个指令完成全屋清洁)尚未成为现实。
根本原因在于:物理世界不接受幻觉。代码可以无限回滚,大模型输出错误只需修改提示词重来;但机器人抓取水杯时,手一滑便是真实的水洒满地——每一次决策都伴随不可撤销的后果。
因此,物理 AI 对数据质量极为挑剔。数据若有问题,模型效果便会谬以千里。然而行业现状是:从今年起,原始数据已不再稀缺,真正的痛点在于缺乏能有效提升任务成功率的训练输入。大量采集的物理记录中存在丢帧、曝光异常、动作无效、传感器不同步等问题。这些“数据废料”若直接用于训练,不仅无法让模型学到正确的因果关系,还会浪费算力,甚至导致模型行为失控。
然而,将原始数据加工为可用的训练输入,并非简单的“清洗”或“标注”所能解决。

首先,机器人数据通常具有多模态、强耦合、异步采样等特点。例如,当机械臂伸向杯子时,摄像头可能以 30Hz 记录画面,IMU 以 200Hz 或更高频率输出惯性数据,关节编码器也运行在各自的采样时钟下。理想的训练输入需要在时间维度上完成多传感器时间戳同步,在空间维度上完成视觉、末端位姿、力觉/触觉与关节状态之间的坐标系标定与对齐。否则就会出现“手已触杯,视觉显示仍有距离”的错位现象。将这种时空失配的数据输入模型,极易诱导其学习到错误的感知-动作映射。
即便解决了时空对齐等“物理层”问题,原始数据仍因缺乏语义而难以直接使用。一段机器人“抓取、抬起、放下”杯子的视频,对算法而言只是一串像素变化和关节角度曲线,它并不理解“这是在拿杯子”,更不知道“为何要拿”或“何为成功”。直接用此类数据训练,模型参数难以收敛到正确的任务意图与动作结构映射,导致训练效率低下或行为不可控。
当数据量级达到万亿小时,真正的挑战才刚刚浮现。问题不再仅是技术复杂度,而是成本开始急剧攀升。质检、对齐、筛选、重编译等每一个环节都在吞噬资源。这种爆炸式增长的成本,是传统“堆人力”模式无法承受的。
此外,闭环反馈同样构成障碍。尽管行业希望将数据置于真实场景中持续获取反馈,但每一个真实生产现场都如同信息孤岛,拥有独立的运行逻辑与准入规则。若无法打通这一闭环,数据系统将是静态的,难以朝确定方向持续迭代。
过去两年,行业几乎尝试了所有可能路径:有人依靠人力密集采集数据,有人寄望于仿真,有人尝试统一数据标准,也有人进行资源撮合以整合分散数据。每条路径都在局部发挥作用,但这些碎片化方案之间难以衔接:数据可靠性不足、流程未形成闭环、成本未能有效控制。问题的根源并非某个单一环节,而是从原始数据到训练输入的整条链路,尚未被转化为可稳定复用、持续运转的工业化流程。
当然,此事之所以难成,也因其壁垒极高。它需要跨学科的团队,既要懂机器人,也要精通大数据与云原生架构,还需能实现闭环落地。其中部分属于技术问题,部分则已超出纯技术范畴。现实中,很难有团队能同时具备所有这些能力。而智域基石,正是这样一个例外。
两位 CTO,五层编译管线
为何说智域基石是个例外?从其团队构成可见一斑。
CEO 具备开源分布式数据库的工程经验;两位 CTO 中,一位拥有机器人从实验室到量产的全周期实践经验,另一位则专攻大规模数据编译与云原生架构,是 CEO 多年的技术搭档。COO 则擅长生态构建,能整合产业链资源,对接政策导向,将技术优势转化为可落地的产业基础设施。
智域基石的投资者也明确表示,看重这支团队“懂场景、懂数据、懂落地”的复合能力,认为其是具身智能产业中极具战略价值的合作伙伴。
这样的人才配置,目标明确:将数据编译从“手工作坊”升级为“自动化产线”,最终成长为模型与原始数据之间不可或缺的基础设施层。

整个数据编译管线分为五层。
第一层是质检,被定义为“来料检测”。这里的“料”来源于其自研的一套以自我为中心的采集设备。该设备并非市面现有方案,而是为了同步记录人的感知(所见、所闻、所触)以及环境的三维信息。当然,除了以自我为中心的数据,他们也同步采集机器人本体数据。用他们的话说,只有获取“最全最原始”的数据,后续才有编译的空间。
智域基石:从数据编译到具身智能,破解物理世界AI训练难题(下)
五层编译管线:从原始数据到可训练资产
在数据通过质检后,智域基石通过一套五层编译管线,将原始传感器记录转化为可直接用于模型训练的结构化资产。
第一层:质检
传统人工质检因成本限制多采用抽检,导致大量噪声数据混入训练集,影响任务成功率。智域基石采用全量质检策略,在数据入库、编译及交付的每个环节持续进行质量检查。
其核心在于通过云原生分布式架构,将质检任务拆解为可并行计算的最小单元,并融合启发式方法、大模型与几何绑定技术,将原本依赖大量人力的检查工作转化为自动化流水线。据测算,在相同覆盖率下,其单位质检成本显著低于传统人工流程。此外,通过与头部机器人厂商的深度合作,公司得以参与质检标准的制定,并在协同中沉淀出更贴近产业实际的规范。
第二层:底座
通过质检的数据仍是散乱的传感器记录,缺乏时空关联。此层目标是将多源异构数据流锚定至统一的时空坐标系。系统采用经过改造的数据湖仓架构,完成两项关键任务:一是对超大规模异构数据进行统一纳管,打破数据孤岛;二是在毫秒级完成不同模态、不同频率数据的时空对齐,确保每一帧画面、动作与力反馈都对应到同一个物理瞬间。
第三层:编译
时空对齐赋予数据结构,但尚未赋予语义。编译层是技术密度最高的环节,系统将连续的动作流拆解为带有明确意图与物理约束的“技能原子”。例如,“拿起杯子”这一动作会被分解为多个具有明确起止点、意图和物理约束的片段。这些片段会被打上标签、建立版本并记录来源关系,确保可复用、可追踪乃至可回滚。此外,本层还能通过推理补全原始数据中缺失的信息,例如在没有触觉传感器时推算手与物体的接触状态。
第四层:检索
编译完成后,面对的是万亿量级的数据资产。客户通常只需要其中高度精准的切片。通过自研的检索与查询引擎,工程师可以使用类SQL的方式,从海量数据中直接调用符合条件的技能片段。例如,通过简单指令即可召回“厨房场景下拿杯子且成功率大于95%的一组动作数据”,系统自动完成召回、筛选与组配,直接输出结构化训练数据。这实质上将具身智能的数据问题转化为大规模并发检索问题,极大提升了交付效率与商业化规模的上限。
第五层:交付
本层解决如何将数十TB至上百TB的数据高效交付并直接投入使用的问题。智域基石将“交付”本身产品化:一方面,将前述组配好的数据自动打包为标准化数据集,附带清晰版本号,可直接投入训练流程,无需二次加工;另一方面,提供弹性交付方式,既支持云端直连、接口式调用,也支持在高安全要求场景下通过高吞吐物理介质进行离线交付。整个过程体系化、标准化,而非一次性项目交付。
这五层管线构成了一个可复现、可规模化、可审计的“数据炼化体系”。其建设难点在于,既需要具身智能领域的专业知识以判断数据的价值与编译特征,也需要云计算与大数据技术以解决存储、切分、检索、交付与成本控制等一系列复杂问题。
从数据到闭环:构建完整的价值链条
然而,仅具备数据编译能力并不足够,数据的最终价值在于让机器人学会实际工作。因此,智域基石致力于构建更完整的业务闭环。
公司与地方政府合作,在真实工业场景中建设数据采集工厂,并与机器人本体、模型研发伙伴(包括股东方)协同,共同采集数据、训练模型,最终将训练好的模型与机器人部署至该场景进行实际作业,从而获取宝贵的闭环反馈。
这一过程涉及多方资源协调、封闭场景进入以及与合作伙伴的需求对齐,关键在于获取并处理数据的入口权与加工权。这体现了智域基石在技术之外的资源整合与项目推进能力。

凭借这套完整的能力,公司在成立仅三个月内便获得了近亿元订单。
其商业模式清晰分为三个阶段:
1. 早期:聚焦“入口”,通过自建采集能力与第一人称数据设备获取稳定、高质量的数据源,同时以定制化数据交付切入市场,完成冷启动与现金流积累。
2. 中期:随着数据编译管线成熟,将前期沉淀的动作与场景抽象为标准化数据资产,以订阅模式对外持续供给,实现数据复用与规模化变现。
3. 远期:将整套能力开放,通过API与生态建设,从“数据供应商”升级为“数据基础设施”,供更多开发者和企业进行数据调用、交易与应用构建。

路线中立:面向终局的数据基础设施观
在行业热议GEN-1(强调人类行为数据学习)与π0.6(侧重异构真机数据对齐与部署反馈)等不同技术路线的背景下,智域基石秉持“路线中立”的终局观。
公司认为,未来的发展并非单一模型路线的胜利,而是三层数据、三段训练闭环的合流:
1. 人类数据形成对物理世界统计规律理解的底座。
2. 异构真机数据完成世界先验向具体机器人本体的迁移与对齐。
3. 部署反馈闭环不断磨砺与提升系统的实际可靠性。
真正的数据终局,是能够同时打通“真实世界持续数字化”、“世界先验迁移到不同本体”以及“部署反馈稳定回流”这三重环节的基础设施。

智域基石的目标,正是将这三层数据稳定、高效、可复现地编译为每一代模型(无论是当前的VLA架构还是未来的新范式)都能直接消化的训练输入。这种对行业终局与数据服务需求的清醒认知,使其能够与不同技术路线上的多家具身智能公司建立协同,拓展发展空间。
在物理世界、AI模型与机器人本体之间,搭建一个不同技术路线最终汇流、且难以绕开的基础设施层——这正是智域基石所锚定的核心机遇。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30666

