最近一段时间，许多具身智能领域的公司都感受到了紧迫感。

大洋彼岸，Generalist AI 近期公布了一项引发行业关注的进展：其基于约 50 万小时真实世界人类行为数据训练的 GEN-1 模型，在若干任务上的成功率超过 99%。其创始人、前 DeepMind 高级研究科学家 Pete Florence 随后表示：“当数据规模足够大，且团队能够完整掌控基础模型时，技术边界会以更快速度被推进。”这被视为对其此前关于具身智能尺度定律判断的进一步验证。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

然而，更多公司仍处在追赶规模的道路上。行业普遍认为，当数据规模与质量跨过某个阈值后，模型性能随规模扩大的提升规律有望趋于稳定。

但在数据量激增的今天，许多公司困在了数据质量问题上。正如业内人士所言，当前许多公司看不到清晰的尺度定律效应，正是因为数据质量不佳、噪声过多。“以前 80% 的工作在模型算法上，现在 80% 的工作在数据上。”

这个判断并不夸张。离身智能可以依赖互联网上经人类无意识“编译”过的语料进行快速训练，但物理世界的数据从未被系统编译过。那些蕴含在操作经验中的规律，深埋在噪声里，未经组织。机器无法自动从世界中习得能力，人的经验也不会自然流入机器，中间必须经过繁琐的人工采集、转译与组织流程，之后才能谈及“训练”。这正是具身模型迭代周期往往以月甚至年计算的原因。其复杂性不容小觑。

但也正是这份复杂性，在物理世界与智能模型之间，撕开了一道巨大的机会缝隙。谁能将混沌的物理世界数据，转化为结构清晰的训练输入，并构建起高效的反馈闭环，谁就有机会填补这一基础设施级的空白，站上增长快车道。

这是一个巨大的新兴赛道。

近期崭露头角的智域基石，便是从这一层生长出来的公司。虽然成立仅三个月，该公司已获得多家投资机构注资，在手订单规模可观。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

与延续传统“标注外包”思路、依靠堆叠人力和场地采集数据的公司不同，智域基石更关注如何构建一套系统化能力，将人类在物理世界中的劳动数字化，并以更低成本将原始数据转换为模型的训练输入。

为此，他们提出了“数据编译”的概念。所谓数据编译，就是为物理世界中高熵、异步、多模态的原始数据，建立一套自动化的“精炼管线”——通过去噪、对齐、拆解为“技能原子”，并打上可追溯的语义标签，让算法真正理解物理规律与动作意图，最终凝结为可用模型。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

如同操作系统为硬件和应用之间提供标准接口，这个编译层旨在为物理世界与模型、本体能力之间定义一套“编译器”式的标准。这并非简单的数据采集外包，而是工业级体系的构建。谁能建立起这套体系，谁便有机会成为模型训练上游的“能力入口”，从低附加值的劳务角色，跃升为高价值的基础设施层。

为了解智域基石的具体路径与优势，我们与其创始团队进行了深入交流。

物理世界，不接受幻觉

在代码生成模型已成为常见工具的今天，我们已习惯“一个指令，生成万行代码”的工作方式。但在物理世界，类似的畅想（例如一个指令完成全屋清洁）尚未成为现实。

根本原因在于：物理世界不接受幻觉。代码可以无限回滚，大模型输出错误只需修改提示词重来；但机器人抓取水杯时，手一滑便是真实的水洒满地——每一次决策都伴随不可撤销的后果。

因此，物理 AI 对数据质量极为挑剔。数据若有问题，模型效果便会谬以千里。然而行业现状是：从今年起，原始数据已不再稀缺，真正的痛点在于缺乏能有效提升任务成功率的训练输入。大量采集的物理记录中存在丢帧、曝光异常、动作无效、传感器不同步等问题。这些“数据废料”若直接用于训练，不仅无法让模型学到正确的因果关系，还会浪费算力，甚至导致模型行为失控。

然而，将原始数据加工为可用的训练输入，并非简单的“清洗”或“标注”所能解决。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

首先，机器人数据通常具有多模态、强耦合、异步采样等特点。例如，当机械臂伸向杯子时，摄像头可能以 30Hz 记录画面，IMU 以 200Hz 或更高频率输出惯性数据，关节编码器也运行在各自的采样时钟下。理想的训练输入需要在时间维度上完成多传感器时间戳同步，在空间维度上完成视觉、末端位姿、力觉/触觉与关节状态之间的坐标系标定与对齐。否则就会出现“手已触杯，视觉显示仍有距离”的错位现象。将这种时空失配的数据输入模型，极易诱导其学习到错误的感知-动作映射。

即便解决了时空对齐等“物理层”问题，原始数据仍因缺乏语义而难以直接使用。一段机器人“抓取、抬起、放下”杯子的视频，对算法而言只是一串像素变化和关节角度曲线，它并不理解“这是在拿杯子”，更不知道“为何要拿”或“何为成功”。直接用此类数据训练，模型参数难以收敛到正确的任务意图与动作结构映射，导致训练效率低下或行为不可控。

当数据量级达到万亿小时，真正的挑战才刚刚浮现。问题不再仅是技术复杂度，而是成本开始急剧攀升。质检、对齐、筛选、重编译等每一个环节都在吞噬资源。这种爆炸式增长的成本，是传统“堆人力”模式无法承受的。

此外，闭环反馈同样构成障碍。尽管行业希望将数据置于真实场景中持续获取反馈，但每一个真实生产现场都如同信息孤岛，拥有独立的运行逻辑与准入规则。若无法打通这一闭环，数据系统将是静态的，难以朝确定方向持续迭代。

过去两年，行业几乎尝试了所有可能路径：有人依靠人力密集采集数据，有人寄望于仿真，有人尝试统一数据标准，也有人进行资源撮合以整合分散数据。每条路径都在局部发挥作用，但这些碎片化方案之间难以衔接：数据可靠性不足、流程未形成闭环、成本未能有效控制。问题的根源并非某个单一环节，而是从原始数据到训练输入的整条链路，尚未被转化为可稳定复用、持续运转的工业化流程。

当然，此事之所以难成，也因其壁垒极高。它需要跨学科的团队，既要懂机器人，也要精通大数据与云原生架构，还需能实现闭环落地。其中部分属于技术问题，部分则已超出纯技术范畴。现实中，很难有团队能同时具备所有这些能力。而智域基石，正是这样一个例外。

两位 CTO，五层编译管线

为何说智域基石是个例外？从其团队构成可见一斑。

CEO 具备开源分布式数据库的工程经验；两位 CTO 中，一位拥有机器人从实验室到量产的全周期实践经验，另一位则专攻大规模数据编译与云原生架构，是 CEO 多年的技术搭档。COO 则擅长生态构建，能整合产业链资源，对接政策导向，将技术优势转化为可落地的产业基础设施。

智域基石的投资者也明确表示，看重这支团队“懂场景、懂数据、懂落地”的复合能力，认为其是具身智能产业中极具战略价值的合作伙伴。

这样的人才配置，目标明确：将数据编译从“手工作坊”升级为“自动化产线”，最终成长为模型与原始数据之间不可或缺的基础设施层。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

整个数据编译管线分为五层。

第一层是质检，被定义为“来料检测”。这里的“料”来源于其自研的一套以自我为中心的采集设备。该设备并非市面现有方案，而是为了同步记录人的感知（所见、所闻、所触）以及环境的三维信息。当然，除了以自我为中心的数据，他们也同步采集机器人本体数据。用他们的话说，只有获取“最全最原始”的数据，后续才有编译的空间。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题（下）

五层编译管线：从原始数据到可训练资产

在数据通过质检后，智域基石通过一套五层编译管线，将原始传感器记录转化为可直接用于模型训练的结构化资产。

第一层：质检
传统人工质检因成本限制多采用抽检，导致大量噪声数据混入训练集，影响任务成功率。智域基石采用全量质检策略，在数据入库、编译及交付的每个环节持续进行质量检查。

其核心在于通过云原生分布式架构，将质检任务拆解为可并行计算的最小单元，并融合启发式方法、大模型与几何绑定技术，将原本依赖大量人力的检查工作转化为自动化流水线。据测算，在相同覆盖率下，其单位质检成本显著低于传统人工流程。此外，通过与头部机器人厂商的深度合作，公司得以参与质检标准的制定，并在协同中沉淀出更贴近产业实际的规范。

第二层：底座
通过质检的数据仍是散乱的传感器记录，缺乏时空关联。此层目标是将多源异构数据流锚定至统一的时空坐标系。系统采用经过改造的数据湖仓架构，完成两项关键任务：一是对超大规模异构数据进行统一纳管，打破数据孤岛；二是在毫秒级完成不同模态、不同频率数据的时空对齐，确保每一帧画面、动作与力反馈都对应到同一个物理瞬间。

第三层：编译
时空对齐赋予数据结构，但尚未赋予语义。编译层是技术密度最高的环节，系统将连续的动作流拆解为带有明确意图与物理约束的“技能原子”。例如，“拿起杯子”这一动作会被分解为多个具有明确起止点、意图和物理约束的片段。这些片段会被打上标签、建立版本并记录来源关系，确保可复用、可追踪乃至可回滚。此外，本层还能通过推理补全原始数据中缺失的信息，例如在没有触觉传感器时推算手与物体的接触状态。

第四层：检索
编译完成后，面对的是万亿量级的数据资产。客户通常只需要其中高度精准的切片。通过自研的检索与查询引擎，工程师可以使用类SQL的方式，从海量数据中直接调用符合条件的技能片段。例如，通过简单指令即可召回“厨房场景下拿杯子且成功率大于95%的一组动作数据”，系统自动完成召回、筛选与组配，直接输出结构化训练数据。这实质上将具身智能的数据问题转化为大规模并发检索问题，极大提升了交付效率与商业化规模的上限。

第五层：交付
本层解决如何将数十TB至上百TB的数据高效交付并直接投入使用的问题。智域基石将“交付”本身产品化：一方面，将前述组配好的数据自动打包为标准化数据集，附带清晰版本号，可直接投入训练流程，无需二次加工；另一方面，提供弹性交付方式，既支持云端直连、接口式调用，也支持在高安全要求场景下通过高吞吐物理介质进行离线交付。整个过程体系化、标准化，而非一次性项目交付。

这五层管线构成了一个可复现、可规模化、可审计的“数据炼化体系”。其建设难点在于，既需要具身智能领域的专业知识以判断数据的价值与编译特征，也需要云计算与大数据技术以解决存储、切分、检索、交付与成本控制等一系列复杂问题。

从数据到闭环：构建完整的价值链条

然而，仅具备数据编译能力并不足够，数据的最终价值在于让机器人学会实际工作。因此，智域基石致力于构建更完整的业务闭环。

公司与地方政府合作，在真实工业场景中建设数据采集工厂，并与机器人本体、模型研发伙伴（包括股东方）协同，共同采集数据、训练模型，最终将训练好的模型与机器人部署至该场景进行实际作业，从而获取宝贵的闭环反馈。

这一过程涉及多方资源协调、封闭场景进入以及与合作伙伴的需求对齐，关键在于获取并处理数据的入口权与加工权。这体现了智域基石在技术之外的资源整合与项目推进能力。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

凭借这套完整的能力，公司在成立仅三个月内便获得了近亿元订单。

其商业模式清晰分为三个阶段：
1. 早期：聚焦“入口”，通过自建采集能力与第一人称数据设备获取稳定、高质量的数据源，同时以定制化数据交付切入市场，完成冷启动与现金流积累。
2. 中期：随着数据编译管线成熟，将前期沉淀的动作与场景抽象为标准化数据资产，以订阅模式对外持续供给，实现数据复用与规模化变现。
3. 远期：将整套能力开放，通过API与生态建设，从“数据供应商”升级为“数据基础设施”，供更多开发者和企业进行数据调用、交易与应用构建。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

路线中立：面向终局的数据基础设施观

在行业热议GEN-1（强调人类行为数据学习）与π0.6（侧重异构真机数据对齐与部署反馈）等不同技术路线的背景下，智域基石秉持“路线中立”的终局观。

公司认为，未来的发展并非单一模型路线的胜利，而是三层数据、三段训练闭环的合流：
1. 人类数据形成对物理世界统计规律理解的底座。
2. 异构真机数据完成世界先验向具体机器人本体的迁移与对齐。
3. 部署反馈闭环不断磨砺与提升系统的实际可靠性。

真正的数据终局，是能够同时打通“真实世界持续数字化”、“世界先验迁移到不同本体”以及“部署反馈稳定回流”这三重环节的基础设施。

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

智域基石的目标，正是将这三层数据稳定、高效、可复现地编译为每一代模型（无论是当前的VLA架构还是未来的新范式）都能直接消化的训练输入。这种对行业终局与数据服务需求的清醒认知，使其能够与不同技术路线上的多家具身智能公司建立协同，拓展发展空间。

在物理世界、AI模型与机器人本体之间，搭建一个不同技术路线最终汇流、且难以绕开的基础设施层——这正是智域基石所锚定的核心机遇。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/30666

智域基石：从数据编译到具身智能，破解物理世界AI训练难题

物理世界，不接受幻觉

两位 CTO，五层编译管线

智域基石：从数据编译到具身智能，破解物理世界AI训练难题（下）

五层编译管线：从原始数据到可训练资产

从数据到闭环：构建完整的价值链条

路线中立：面向终局的数据基础设施观

相关推荐

从Sora到Seko：视频生成“不可能三角”的破局者与AI短剧工业化之路

从数据闭环到训练闭环：理想汽车世界模型如何重塑自动驾驶AI范式

Claude Task Viewer：实时可视化Claude Code任务执行过程的智能看板

空间智能第一股上市暴涨171%！群核科技成AI下半场领跑者，李飞飞、英伟达、腾讯阿里竞相押注

共享自主框架突破灵巧操作数据瓶颈：字节跳动Seed团队VLA策略研究深度解析