蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

什么在限制空间智能的落地？

从自动驾驶到具身智能，行业共识指向一个核心要素：数据。数据不足导致模型泛化能力弱，往往只能依赖硬件堆叠来弥补。

这一挑战在机器人领域尤为突出。机器人依赖RGB-D相机来感知三维空间，这类设备能同时获取RGB图像和深度信息。然而，当遇到镜子、电梯门、玻璃等透明或高反光物体时，RGB-D相机的深度感知极易失效，导致机器人“失明”。

这些是机器人走向实际应用无法回避的场景。过去，由于缺乏高质量数据基础，行业通常采用增加或升级硬件传感器的方式来应对。

这一局面或将迎来转变。近期，蚂蚁灵波针对这一核心痛点，开源了一个大规模RGB-D数据集。基于该数据集训练的模型，已在多项基准测试中取得了领先（SOTA）性能。

空间智能的瓶颈何在？

空间智能是机器人实现环境感知、路径规划、导航与精细操作的关键。例如，让机器人抓取一个杯子，它不仅需要识别物体，还必须精确感知杯子的距离、方位和三维边界。

实现这种能力依赖于大规模、高质量的三维空间数据。互联网上充斥的海量RGB图像虽规模庞大，但仅能提供二维信息，难以让AI模型建立起对三维世界的理解。

因此，行业一直在探索为AI补充空间感知能力的路径，主要包括RGB-D相机、激光雷达和3D重建等技术。其中，RGB-D相机方案因能实时提供包含深度信息的三维数据而备受青睐，如同为AI开启了感知距离的“第三只眼”。

但RGB-D技术路线存在两大挑战。首先是数据采集困难：采集过程并非简单拍摄，需确保左右图像一致性、RGB与深度信息的时空同步，并处理不同硬件间的差异。

其次是传感器本身的局限性：RGB-D相机在面对玻璃、镜面、金属反光材质或白墙等低纹理表面时，深度测量容易失效。

以机器人抓取杯子为例，我们日常看到的杯子是这样的：

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

而在失效的RGB-D相机深度图中，杯子可能呈现如此形态：

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

在机器人视角下，两个杯子连成一片，无法区分边界，自然难以完成精准抓取。RGB-D相机的不稳定性，进一步加剧了高质量训练数据的匮乏。

蚂蚁灵波开源空间智能数据集

为缓解行业数据短缺问题，蚂蚁灵波开源了 LingBot-Depth-Dataset 数据集。该数据集总规模达 2.71TB，包含 300万对 经过标注的RGB-D数据，每对样本均包含一张RGB图像、一张传感器原始深度图及一张真值深度图。

其中约 200万对 为真实场景数据，主要包括：
* RobbyReal：由多台RGB-D相机在真实室内场景采集的约140万对数据。
* RobbyVla：由机器人在视觉-语言-动作（VLA）任务中采集的约58万对数据。

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

这些真实数据覆盖了住宅、教室、博物馆、商店、医院、健身房、电梯等多种日常生活场景，丰富的场景有助于提升基于该数据训练的模型的泛化能力。

此外，数据集还包含约100万对由双相机视角渲染生成的合成数据 RobbySim。

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

其余部分为 RobbySimVal（约3.8万条），作为合成数据的验证集。这种虚实结合的数据构建方式，既能覆盖难以采集的边缘场景，也有效控制了数据获取成本。

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

规模与场景丰富性是数据集得以广泛应用的基础，但并非全部。LingBot-Depth-Dataset的另一关键优势在于其数据分布的多样性。数据集采用了 Orbbec 335/335L 与 Intel RealSense D405/D415/D435/D455 共6款主流深度相机进行采集。不同相机在成像特性、噪声模式和深度精度上存在差异，使得数据集天然涵盖了多种传感器分布，为下游模型训练提供了更全面的数据基础。

这意味着这座“数据富矿”可供更广泛的研究团队开发利用，有望成为空间智能领域的基础设施。

构建具身智能的“大脑平台”

蚂蚁灵波开源的数据基础设施，有效缓解了开源社区缺乏真实场景RGB-D数据的问题，其价值已在实践中得到验证。

今年初，基于 LingBot-Depth-Dataset 训练的 LingBot-Depth 模型被发布。该模型在iBims、NYUv2和DIODE等权威深度补全基准测试中均达到了领先（SOTA）水平。

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

将LingBot-Depth模型部署到真实机器人上后，使其能够稳健抓取透明及反光物体，解决了以往的一大难题。

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

此后，蚂蚁灵波又相继开源了 LingBot-VLA（打通视觉、语言与动作决策）、LingBot-World（提供仿真训练环境）以及 LingBot-VA。其中LingBot-VA创新性地让世界模型直接驱动机器人动作，实现了 “边推演，边执行” 的先进范式。

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

从感知到决策，从模型到数据，蚂蚁灵波正在构建一个完整的具身智能“大脑平台”。其系列开源成果也为行业提供了新的发展思路。

物理AI，数据先行

这种通过软件算法增强感知能力，而非单纯依赖硬件堆叠的思路，体现了计算机科学中的 “软件硬件等效原理”。

在软件（算法/数据）与硬件（传感器）之间应如何权衡？同属物理AI范畴的自动驾驶行业已形成可供借鉴的共识：

首要重点是数据与算法架构。数据是AI迭代的基石，而算法架构关乎如何整合多种算法形成系统能力并进行长期积累。

其次才是增加传感器数量或提升规格。自动驾驶领域的实践表明，随着数据规模增长与算法架构优化，模型的空间感知能力会持续增强，此时堆叠硬件传感器带来的边际效益将递减。

这一共识推动了硬件成本的降低，为自动驾驶商业化奠定了基础。自动驾驶的经验证明，物理AI的落地应优先考虑软件方案，这不仅能有效提升空间智能，也更利于商业化推广。这也是蚂蚁灵波开源系列模型与数据集给具身智能行业带来的启示：

强化空间智能，应优先从数据与算法入手，而非追逐昂贵的硬件。

数据集访问地址：
* Hugging Face: https://huggingface.co/datasets/robbyant/mdm_depth
* ModelScope: https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/27970

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

蚂蚁灵波开源300万对RGB-D数据集，破解空间智能数据瓶颈

空间智能的瓶颈何在？

蚂蚁灵波开源空间智能数据集

构建具身智能的“大脑平台”

物理AI，数据先行

相关推荐

Star-Office-UI：让AI打工人在像素办公室“摸鱼”和“面壁”

30秒极速部署：PinMe开源神器让静态网站上线零门槛

硅谷明星项目Hermes Agent被曝架构级抄袭中国团队EvoMap，8.5万Star背后竟是AI洗代码？

AI 驱动的屏幕活动自动追踪神器 Dayflow：开源工具助你优化工作节奏与时间管理

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出