蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

什么在限制空间智能的落地?

从自动驾驶到具身智能,行业共识指向一个核心要素:数据。数据不足导致模型泛化能力弱,往往只能依赖硬件堆叠来弥补。

这一挑战在机器人领域尤为突出。机器人依赖RGB-D相机来感知三维空间,这类设备能同时获取RGB图像和深度信息。然而,当遇到镜子、电梯门、玻璃等透明或高反光物体时,RGB-D相机的深度感知极易失效,导致机器人“失明”。

这些是机器人走向实际应用无法回避的场景。过去,由于缺乏高质量数据基础,行业通常采用增加或升级硬件传感器的方式来应对。

这一局面或将迎来转变。近期,蚂蚁灵波针对这一核心痛点,开源了一个大规模RGB-D数据集。基于该数据集训练的模型,已在多项基准测试中取得了领先(SOTA)性能。

空间智能的瓶颈何在?

空间智能是机器人实现环境感知、路径规划、导航与精细操作的关键。例如,让机器人抓取一个杯子,它不仅需要识别物体,还必须精确感知杯子的距离、方位和三维边界。

实现这种能力依赖于大规模、高质量的三维空间数据。互联网上充斥的海量RGB图像虽规模庞大,但仅能提供二维信息,难以让AI模型建立起对三维世界的理解。

因此,行业一直在探索为AI补充空间感知能力的路径,主要包括RGB-D相机、激光雷达和3D重建等技术。其中,RGB-D相机方案因能实时提供包含深度信息的三维数据而备受青睐,如同为AI开启了感知距离的“第三只眼”

但RGB-D技术路线存在两大挑战。首先是数据采集困难:采集过程并非简单拍摄,需确保左右图像一致性、RGB与深度信息的时空同步,并处理不同硬件间的差异。

其次是传感器本身的局限性:RGB-D相机在面对玻璃、镜面、金属反光材质或白墙等低纹理表面时,深度测量容易失效。

机器人抓取杯子为例,我们日常看到的杯子是这样的:

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

而在失效的RGB-D相机深度图中,杯子可能呈现如此形态:

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

在机器人视角下,两个杯子连成一片,无法区分边界,自然难以完成精准抓取。RGB-D相机的不稳定性,进一步加剧了高质量训练数据的匮乏。

蚂蚁灵波开源空间智能数据集

为缓解行业数据短缺问题,蚂蚁灵波开源了 LingBot-Depth-Dataset 数据集。该数据集总规模达 2.71TB,包含 300万对 经过标注的RGB-D数据,每对样本均包含一张RGB图像、一张传感器原始深度图及一张真值深度图

其中约 200万对 为真实场景数据,主要包括:
* RobbyReal:由多台RGB-D相机在真实室内场景采集的约140万对数据。
* RobbyVla:由机器人在视觉-语言-动作(VLA)任务中采集的约58万对数据。

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

这些真实数据覆盖了住宅、教室、博物馆、商店、医院、健身房、电梯等多种日常生活场景,丰富的场景有助于提升基于该数据训练的模型的泛化能力。

此外,数据集还包含约100万对由双相机视角渲染生成的合成数据 RobbySim

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

其余部分为 RobbySimVal(约3.8万条),作为合成数据的验证集。这种虚实结合的数据构建方式,既能覆盖难以采集的边缘场景,也有效控制了数据获取成本。

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

规模与场景丰富性是数据集得以广泛应用的基础,但并非全部。LingBot-Depth-Dataset的另一关键优势在于其数据分布的多样性。数据集采用了 Orbbec 335/335L 与 Intel RealSense D405/D415/D435/D455 共6款主流深度相机进行采集。不同相机在成像特性、噪声模式和深度精度上存在差异,使得数据集天然涵盖了多种传感器分布,为下游模型训练提供了更全面的数据基础。

这意味着这座“数据富矿”可供更广泛的研究团队开发利用,有望成为空间智能领域的基础设施。

构建具身智能的“大脑平台”

蚂蚁灵波开源的数据基础设施,有效缓解了开源社区缺乏真实场景RGB-D数据的问题,其价值已在实践中得到验证

今年初,基于 LingBot-Depth-Dataset 训练的 LingBot-Depth 模型被发布。该模型在iBims、NYUv2和DIODE等权威深度补全基准测试中均达到了领先(SOTA)水平。

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

将LingBot-Depth模型部署到真实机器人上后,使其能够稳健抓取透明及反光物体,解决了以往的一大难题。

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

此后,蚂蚁灵波又相继开源了 LingBot-VLA(打通视觉、语言与动作决策)、LingBot-World(提供仿真训练环境)以及 LingBot-VA。其中LingBot-VA创新性地让世界模型直接驱动机器人动作,实现了 “边推演,边执行” 的先进范式。

蚂蚁灵波开源300万对RGB-D数据集,破解空间智能数据瓶颈

从感知到决策,从模型到数据,蚂蚁灵波正在构建一个完整的具身智能“大脑平台”。其系列开源成果也为行业提供了新的发展思路。

物理AI,数据先行

这种通过软件算法增强感知能力,而非单纯依赖硬件堆叠的思路,体现了计算机科学中的 “软件硬件等效原理”

在软件(算法/数据)与硬件(传感器)之间应如何权衡?同属物理AI范畴的自动驾驶行业已形成可供借鉴的共识:

首要重点是数据与算法架构。数据是AI迭代的基石,而算法架构关乎如何整合多种算法形成系统能力并进行长期积累。

其次才是增加传感器数量或提升规格。自动驾驶领域的实践表明,随着数据规模增长与算法架构优化,模型的空间感知能力会持续增强,此时堆叠硬件传感器带来的边际效益将递减。

这一共识推动了硬件成本的降低,为自动驾驶商业化奠定了基础。自动驾驶的经验证明,物理AI的落地应优先考虑软件方案,这不仅能有效提升空间智能,也更利于商业化推广。这也是蚂蚁灵波开源系列模型与数据集给具身智能行业带来的启示:

强化空间智能,应优先从数据与算法入手,而非追逐昂贵的硬件。

数据集访问地址:
* Hugging Face: https://huggingface.co/datasets/robbyant/mdm_depth
* ModelScope: https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27970

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 一张图看懂主流大模型架构!AI研究者整理「LLM Architecture Gallery」在线图谱

    近年来,大模型领域发展迅速,新模型层出不穷。从 GPT、Llama、Gemma、Mistral,到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等,几乎每周都有新架构发布。 然而,随着架构创新日益增多,理解它们却变得愈发困难。不同论文中的模型结构图风格各异,模块命名也不统一,即便是研究者,也很难快速把握一个模型的关键改动之处。 纵观过去几年…

    2026年3月16日
    35600
  • AI掌控安卓手机:四大开源项目深度解析与实战指南

    AI掌控安卓手机:四大开源项目深度解析与实战指南 去年11月,一篇盘点GitHub上AI操控手机开源项目的文章引发了广泛关注。文章发布仅五天后,豆包便官宣推出AI手机,紧接着智谱AI开源了AutoGLM模型。这标志着AI与移动设备交互进入了一个新的阶段。 本文将整合最新的开源项目,对当前GitHub上主流的AI控制手机方案进行一次全面的梳理和解析。 01 智…

    2025年12月15日
    32700
  • TiDB大佬黄东旭周末打造mem9.ai:解决OpenClaw龙虾「金鱼脑」痛点,引爆开发者社区

    2026年最火的不是某个大模型,而是一只龙虾。 OpenClaw——这个源于奥地利程序员Peter Steinberger周末实验的项目,在短短三个月内GitHub星标数突破16万,一周涌入200万人次访客。腾讯云为它在深圳大厦设立了「龙虾安装站」,深圳龙岗区甚至出台了专项扶持政策。 然而,在全民养虾的狂热背后,一个致命的问题正困扰着每一位用户—— 你的龙虾…

    2026年3月15日
    52400
  • AI智能体自主发朋友圈引热议!复旦大学开源通用智能体GenericAgent,开启数字生命新纪元

    最近,复旦大学肖仰华教授的朋友圈引起了热议。其团队在研发测试的AI智能体通过自主学习,掌握了操作微信的能力,不仅能在朋友圈发布消息,还能与好友在评论区自主互动。这种自然的互动方式,甚至让一些好友开始要求“证明你真的是肖老师,而不是他的AI”。 这种“分不清真人与AI”的错觉,源于A3实验室(Advantage AI Agent实验室,由深圳夸夸菁领科技有限公…

    2026年3月1日
    27700
  • 国产AI开发平台BISHENG:GitHub斩获10K星,企业级LLM DevOps解决方案

    在浏览 GitHub 时,一个名为 BISHENG 的国产 AI 开源项目引起了我的注意。 这是一款主要面向企业的开源 AgentOps 平台。其名称源自活字印刷术的发明者——毕昇。活字印刷术曾极大地推动了人类知识的传播,而 BISHENG 团队的愿景,则是为智能应用的广泛落地提供有力支撑。 开源项目简介 BISHENG 已在 GitHub 上获得了超过 1…

    2025年11月24日
    31300