蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈
什么在限制空间智能的落地?
从自动驾驶到具身智能,行业共识指向一个核心要素:数据。数据不足导致模型泛化能力弱,往往只能依赖硬件堆叠来弥补。
这一挑战在机器人领域尤为突出。机器人依赖RGB-D相机来感知三维空间,这类设备能同时获取RGB图像和深度信息。然而,当遇到镜子、电梯门、玻璃等透明或高反光物体时,RGB-D相机的深度感知极易失效,导致机器人“失明”。
这些是机器人走向实际应用无法回避的场景。过去,由于缺乏高质量数据基础,行业通常采用增加或升级硬件传感器的方式来应对。
这一局面或将迎来转变。近期,蚂蚁灵波针对这一核心痛点,开源了一个大规模RGB-D数据集。基于该数据集训练的模型,已在多项基准测试中取得了领先(SOTA)性能。
空间智能的瓶颈何在?
空间智能是机器人实现环境感知、路径规划、导航与精细操作的关键。例如,让机器人抓取一个杯子,它不仅需要识别物体,还必须精确感知杯子的距离、方位和三维边界。
实现这种能力依赖于大规模、高质量的三维空间数据。互联网上充斥的海量RGB图像虽规模庞大,但仅能提供二维信息,难以让AI模型建立起对三维世界的理解。
因此,行业一直在探索为AI补充空间感知能力的路径,主要包括RGB-D相机、激光雷达和3D重建等技术。其中,RGB-D相机方案因能实时提供包含深度信息的三维数据而备受青睐,如同为AI开启了感知距离的“第三只眼”。
但RGB-D技术路线存在两大挑战。首先是数据采集困难:采集过程并非简单拍摄,需确保左右图像一致性、RGB与深度信息的时空同步,并处理不同硬件间的差异。
其次是传感器本身的局限性:RGB-D相机在面对玻璃、镜面、金属反光材质或白墙等低纹理表面时,深度测量容易失效。
以机器人抓取杯子为例,我们日常看到的杯子是这样的:

而在失效的RGB-D相机深度图中,杯子可能呈现如此形态:

在机器人视角下,两个杯子连成一片,无法区分边界,自然难以完成精准抓取。RGB-D相机的不稳定性,进一步加剧了高质量训练数据的匮乏。
蚂蚁灵波开源空间智能数据集
为缓解行业数据短缺问题,蚂蚁灵波开源了 LingBot-Depth-Dataset 数据集。该数据集总规模达 2.71TB,包含 300万对 经过标注的RGB-D数据,每对样本均包含一张RGB图像、一张传感器原始深度图及一张真值深度图。
其中约 200万对 为真实场景数据,主要包括:
* RobbyReal:由多台RGB-D相机在真实室内场景采集的约140万对数据。
* RobbyVla:由机器人在视觉-语言-动作(VLA)任务中采集的约58万对数据。

这些真实数据覆盖了住宅、教室、博物馆、商店、医院、健身房、电梯等多种日常生活场景,丰富的场景有助于提升基于该数据训练的模型的泛化能力。
此外,数据集还包含约100万对由双相机视角渲染生成的合成数据 RobbySim。

其余部分为 RobbySimVal(约3.8万条),作为合成数据的验证集。这种虚实结合的数据构建方式,既能覆盖难以采集的边缘场景,也有效控制了数据获取成本。

规模与场景丰富性是数据集得以广泛应用的基础,但并非全部。LingBot-Depth-Dataset的另一关键优势在于其数据分布的多样性。数据集采用了 Orbbec 335/335L 与 Intel RealSense D405/D415/D435/D455 共6款主流深度相机进行采集。不同相机在成像特性、噪声模式和深度精度上存在差异,使得数据集天然涵盖了多种传感器分布,为下游模型训练提供了更全面的数据基础。
这意味着这座“数据富矿”可供更广泛的研究团队开发利用,有望成为空间智能领域的基础设施。
构建具身智能的“大脑平台”
蚂蚁灵波开源的数据基础设施,有效缓解了开源社区缺乏真实场景RGB-D数据的问题,其价值已在实践中得到验证。
今年初,基于 LingBot-Depth-Dataset 训练的 LingBot-Depth 模型被发布。该模型在iBims、NYUv2和DIODE等权威深度补全基准测试中均达到了领先(SOTA)水平。

将LingBot-Depth模型部署到真实机器人上后,使其能够稳健抓取透明及反光物体,解决了以往的一大难题。

此后,蚂蚁灵波又相继开源了 LingBot-VLA(打通视觉、语言与动作决策)、LingBot-World(提供仿真训练环境)以及 LingBot-VA。其中LingBot-VA创新性地让世界模型直接驱动机器人动作,实现了 “边推演,边执行” 的先进范式。

从感知到决策,从模型到数据,蚂蚁灵波正在构建一个完整的具身智能“大脑平台”。其系列开源成果也为行业提供了新的发展思路。
物理AI,数据先行
这种通过软件算法增强感知能力,而非单纯依赖硬件堆叠的思路,体现了计算机科学中的 “软件硬件等效原理”。
在软件(算法/数据)与硬件(传感器)之间应如何权衡?同属物理AI范畴的自动驾驶行业已形成可供借鉴的共识:
首要重点是数据与算法架构。数据是AI迭代的基石,而算法架构关乎如何整合多种算法形成系统能力并进行长期积累。
其次才是增加传感器数量或提升规格。自动驾驶领域的实践表明,随着数据规模增长与算法架构优化,模型的空间感知能力会持续增强,此时堆叠硬件传感器带来的边际效益将递减。
这一共识推动了硬件成本的降低,为自动驾驶商业化奠定了基础。自动驾驶的经验证明,物理AI的落地应优先考虑软件方案,这不仅能有效提升空间智能,也更利于商业化推广。这也是蚂蚁灵波开源系列模型与数据集给具身智能行业带来的启示:
强化空间智能,应优先从数据与算法入手,而非追逐昂贵的硬件。
数据集访问地址:
* Hugging Face: https://huggingface.co/datasets/robbyant/mdm_depth
* ModelScope: https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27970


