具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

编辑｜杜伟

本月，具身智能领域迎来重要进展：硅谷独角兽公司 Generalist AI 发布了新一代基础模型 GEN-1。该模型在执行机器人包装手机、折叠纸箱等任务时，平均成功率提升至创纪录的 99%，其中折叠纸箱的速度更是提升至原先的三倍（从 34 秒缩短至 12.1 秒）。

支撑这一突破的，除了模型架构的重新设计，还有一套规模庞大的数据底座——超过 50 万小时通过可穿戴设备采集的真实物理交互数据。

具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

GEN-1 的成功印证了一个趋势：过去几年，大语言模型的扩展定律（Scaling Law）建立在几乎取之不尽的互联网数据之上；而如今，具身智能的扩展定律正越来越依赖于对真实世界交互数据的获取、构建与高效利用。

与文本、图像、视频等可复制、可扩展、低成本的互联网数据不同，具身智能所需的数据往往需要在真实设备与真实环境中产生。例如，机器人的每一次抓取、移动、接触与失败，都是不可复用的物理交互实例。

在此背景下，行业逐渐形成一个更清晰的共识：数据采集已成为制约具身智能发展的关键瓶颈，也是当前最难规模化突破的一环。面对“数据规模与多样性不足、标注成本高昂、泛化能力薄弱”等核心挑战，行业亟需寻找破局之道。

近日，一家国产工业级人形机器人公司选择从源头重构数据采集体系，提出了新的解决方案。

开普勒机器人正式发布了“原生全感知力触数采系统”。该方案打通了从底层力触觉硬件采集、多模态数据处理，到顶层 VTLA（视觉-触觉-语言-动作）大模型原生适配与全场景落地验证的全链路闭环，构建了一套可持续扩展的数据引擎。

具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

这套数采系统具备显著的“平台化”特征。它依托标准化的采集硬件、统一的数据结构以及与模型的原生适配，实现了跨任务、跨场景甚至跨机器人本体的数据复用。这意味着数据不再是一次性消耗品，而是可以持续积累并反复利用的生产资料。

在此框架下，具身智能的研发范式也在发生转变：从传统上以视觉为主导的模仿学习（看着学），逐步走向以力触觉为核心的全感知物理交互（在接触中理解世界）。从长远看，这套数采系统有望成为未来人形机器人迈向全感知智能体的重要基础设施。

其在数据采集体系与具身大模型范式上的创新，也为开普勒赢得了资本市场的进一步认可。近日，开普勒完成了“亿元级 A++ 轮融资”，并宣布公司战略全面升级，将聚焦于“具身智能大脑建设”与“力触觉数据采集”两大核心赛道。

正如开普勒 CEO 宋华所言：“公司正加速向智能大脑升级，强化数据与模型能力，持续提升机器人在复杂工业场景中的落地效率与作业精度。”

具身数据，“不破不立”

具身智能能力的上限，归根结底取决于对真实物理世界的理解。这种理解无法凭空获得，必须建立在海量数据之上。数据因而成为整个系统能否持续进化的地基。当地基无法支撑更复杂的能力演进时，就需要重新审视甚至重构。

首先看数据本身。
当前应用最广泛的仍是视觉数据和仿真数据，但两者均有明显短板。视觉只能“看”，感知不到接触和受力状态，在抓取、装配等精细操作中存在天然盲区；仿真数据则过于理想化，与真实工厂的复杂环境差异显著，导致模型在真实场景中的表现往往大幅下滑，在工业场景的泛化成功率仅为 25%-30%。

其次看数据采集路径。
过去一段时间，许多团队采用“多场景铺开”的横向采集思路，试图一次性覆盖家庭、服务、工业等多种场景以构建通用能力。然而，在工业场景中，这条路径往往难以走通，原因包括：数据过于分散、针对性弱；与真实产线需求脱节；投入产出比低，横向采集在工业场景的 ROI 可低至 15%。

最后看数据采集方式。
目前许多数据仍依赖人工遥操作逐条采集，单个采集员每日仅能采集约 100 条有效数据，效率低且成本高。同时，不同项目间的标准不统一，导致数据难以复用。表面上每个项目都在积累数据，却无法形成可持续产出的数据体系，模型迭代也因此受阻。

以上问题叠加，导致了当前局面：数据既不够多，也不够好。
更关键的是，这无法通过“简单堆砌数据量”来解决，而必须从数据生产本身寻找根源：感知维度单一、采集效率低下、与真实场景脱节，导致现有体系无法满足大规模扩展的需求。

光“看见”还不够，更要全方位“触碰”

在重构数据地基的过程中，每个环节都需要重新思考。尤其是在感知维度上，过去以视觉为主的数据所带来的信息缺失，使得模型难以理解复杂物理交互的关键细节。

视觉可以告诉机器人“物体在哪里、外观如何”，但一旦进入真实操作，许多关键问题是看不见的，例如是否发生接触、接触是否稳定、力度是否合适。特别是在存在遮挡、反光、涉及柔性物体或复杂装配的场景中，仅依赖视觉很难确保动作的稳定性。

触觉和六维力信息的引入，正好可以弥补这些短板。六维力是指机器人在接触过程中感受到的完整受力状态，包括三个轴向的力（F_x, F_y, F_z）和绕三个轴的力矩（M_x, M_y, M_z）。前者描述“被推/拉了多少”，后者描述“被拧/扭了多少”。

与视觉不同，触觉和力反馈直接作用于接触过程，持续提供压力、摩擦和受力方向等信息，让机器人能够“边执行、边感受、边修正”。

在此基础上，力反馈改变了机器人的控制方式。以往，机器人主要按预设轨迹执行动作，环境变化易导致失败；引入六维力数据后，动作可以根据实时接触状态进行动态调整。

更进一步的变化体现在学习层面。以视觉为主导的模仿学习通常只记录运动轨迹，不关注力度控制，导致动作可复现但环境适应性差。加入触觉和力数据后，模型不仅能学习轨迹，还能学习何时接触、使用多大力、如何调整。这些原本隐含在操作中的经验，得以被显式地建模。

得益于此，在多材质抓取、精密装配等接触密集的任务中，模型的稳定性与成功率通常能获得显著提升。

触觉和六维力数据带来的不仅是性能提升，更改变了机器人参与物理世界的方式。从“只会看”到“可以触”，再到“理解接触过程中的力与交互反馈”，这种转变是具身智能走向实际应用的关键。

围绕这一核心，开普勒构建了一套全感知数据采集系统，将视觉、力觉、触觉、语言和动作等多模态数据，置于同一流程中进行同步采集与统一对齐。

在这样的数据底座上，机器人能够学习更完整的操作过程，不仅清楚如何运动，也能理解“何时接触、用多大力以及如何动态调整”。

具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

既要精，又要量：“双路径数采”并行

面对具身智能在数据本身、采集方式等方面存在的局限，开普勒提出了“以力触觉为核心的全感知数采系统”，从数据生产源头进行优化。

本质上，开普勒并未局限于单一优化路径，而是创造性地将数据采集拆分为两条互补的路径：一条追求精度，采集高保真数据；另一条追求规模，获取规模化与全场景数据。

两条路径并行，在精度与规模之间建立平衡，为机器人的复杂操作能力与模型泛化能力提供稳定的数据基础。

追求精度的关键在于“双向遥操作闭环采集路径”。该路径包含力反馈外骨骼、触觉反馈手套以及机器人端的高分辨率触觉传感器等核心硬件。采集到的高保真多模态数据，构成了支撑精密工业场景中高精度操作的关键数据来源。

其工作流程如下：操作员佩戴力反馈外骨骼和触觉手套，手部动作被捕获并映射到机器人；机器人通过手部搭载的高分辨率触觉传感器，实时检测接触时的力、滑动和状态变化；这些触觉数据被转换为振动、阻力等可感知的反馈，回传给操作员；操作员根据反馈动态调整操作。

整个过程形成了一个完整的双向反馈闭环：人发出动作，机器人执行，触觉与受力信息实时反馈，人据此进行微调。以此方式采集的数据在真实接触中不断修正，精度高、细节全，数据保真度可达 99%。

与此同时，延迟、噪声等问题可通过本地部署、低延迟通信及传感器补偿等技术手段得到解决，确保系统链路稳定运行，实现毫秒级延迟控制，并将噪声误差降至 1% 以下。

具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

规模化采集的关键在于“类 UMI 的人类示范采集路径”，其核心硬件为集成高密度触觉传感器的手套。整体思路可概括为：将数据采集从依赖成本高、数量有限的机器人本体，转向依赖人本身，从而降低成本并提升采集效率。

相比高保真精细采集路径，该路径流程更为简化：采集人员佩戴触觉手套，在真实环境中完成各类操作任务，系统同步记录视觉信息、手部关节角度、触觉压力阵列及肌肉运动等多模态数据，再通过算法映射至目标机器人的运动学模型中。

针对该路径可能出现的痛点，也提供了相应解决方案：

形态差异：通过多机型目标映射算法与策略蒸馏技术，使一套采集数据可在数十种不同构型机器人之间复用；
视觉遮挡：采用头部与腕部多视角相机融合，补全第一人称视角的视觉盲区，提升数据的完整性与可用性。

该路径不依赖真实机器人，具有成本低、速度快的特点，能够迅速积累大规模数据，并覆盖更广泛的场景。

两条路径共同构成了数据采集的一体两面：前者保障数据的精度，以支撑复杂工业任务；后者保障数据的规模，以应对多样化情况。

最终，系统构建了一套兼顾深度与广度的数据采集体系，为 VTLA 全感知模型的训练提供了质与量兼备的数据基础。

触觉加入，VTLA 开启“全感知”范式

数据采集问题解决后，关键在于如何将数据有效用于模型训练，转化为实际操控能力。同时，力触觉数据的引入也推动了传统 VLA 模型架构的演进。

在此背景下，VTLA 全感知大模型将触觉模态提升至与视觉、语言、动作同等重要的地位。

传统 VLA 模型主要依赖视觉与语言理解环境，再生成相应动作。VTLA 在此基础上加入力触觉，使模型在感知与决策过程中同步处理接触与受力信息，为复杂物理交互提供更完整的建模基础。

这一变化带来的直接提升是：机器人不仅能判断“该如何做”，还能在执行过程中实时校正“做得对不对”。

在具体实现上，VTLA 模型将多视角 RGB-D 数据、语言指令、本体/关节状态、触觉/力数据（如压力分布、力矢量、滑移事件等）置于同一体系中进行处理。这些数据不再由独立模块分别处理，而是经过统一编码后输入同一网络，端到端输出控制指令。

相应地，模型对数据的需求也发生变化：相比以往主要依赖视觉数据，VTLA 需要大量包含接触、受力及操作细节的多模态数据。因此，力反馈外骨骼、触觉手套等采集设备提供的数据变得至关重要。

在训练策略上，VTLA 常基于已有的视觉语言模型进行扩展，并结合仿真数据、真实采集数据及人类演示视频等多源数据提升训练效率。评估重点也从仅关注“任务是否完成”，转向更注重过程质量，如抓取稳定性、操作精度、对新物体的适应性以及在复杂环境中的可靠性。

力触觉的加入，补足了具身智能长期以来在接触过程与物理交互理解方面的短板，使其更贴近真实世界的可用状态。

具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

总结

整体来看，该方案系统性地梳理并解决了行业中长期存在的若干问题：人采数据与机器人使用之间的错位、硬件不统一导致的重复投入、数据质量与规模之间的失衡等。

通过这一体系，包含力触觉在内的全感知数据逐步具备了“可用、可复用、可持续生产”的能力。

目前，系统一方面持续夯实数据采集维度（涵盖指尖点阵压力分布、三轴力与三轴力矩等全维度力觉数据），另一方面不断深化 VTLA 原生多模态融合能力。在精密装配、多材质抓取及复杂环境精细操作等任务中，其稳定性、成功率和泛化性能均显著超越以视觉为主的传统 VLA 方案。

在真实产线环境中，该能力已得到验证。例如在某汽车工厂产线实测中，基于力触觉全感知数据的 VTLA 模型连续完成 1000 次高精度装配操作，成功率达 99.4%，较纯视觉模型提升 19.4%，且全程无需人工干预，大幅降低了返工率与人工成本。

具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

该方案为具身智能在工业场景的规模化落地提供了可行的技术路径，也标志着具身智能正从实验室研究迈向工程化应用阶段。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29894

具身智能新突破：开普勒发布原生全感知力触数采系统，破解数据采集瓶颈

具身数据，“不破不立”

光“看见”还不够，更要全方位“触碰”

既要精，又要量：“双路径数采”并行

触觉加入，VTLA 开启“全感知”范式

总结

相关推荐

QQ浏览器AI化转型深度解析：从工具到智能体的全场景重构

AI安全前沿：因果推理与稀疏自编码器驱动的LLM越狱攻击突破

GPT-5.2深度解析：专业AI如何重塑知识工作范式

澳洲放羊大叔的AI编程革命：5行Bash脚本引爆硅谷，睡觉时AI自动完成5万美元项目

OpenAI发起Model Craft挑战：16MB参数极限压缩，10分钟训练，争夺百万算力与面试机会