从事深度估计与深度补全的研究者,或许都经历过这样的困境:模型在NYU Depth V2等经典基准测试上取得了优异的成绩,但一旦部署到真实的机器人系统,问题便暴露无遗——深度图边缘模糊、远处深度值漂移,遇到反光或透明材质时几乎完全失效。
问题的根源往往不在于代码实现,而在于数据。
这并非个例,而是该领域长期面临的挑战之一。深度估计与深度补全的学术进展,在很大程度上受限于可用数据集的天花板。过去十几年,社区高度依赖几个经典数据集:NYU Depth V2主要覆盖室内公寓与办公室场景;KITTI专注于自动驾驶的室外道路场景,对具身智能应用帮助有限;ScanNet为室内重建而设计,其帧序列格式并非为配对的深度训练任务优化;ETH3D、DIML等数据集各有侧重,但规模均难以满足当前大模型时代的训练需求。
尽管合成数据能在一定程度上缓解数据短缺,但其渲染材质与真实场景之间存在肉眼可辨的差异。模型在合成数据上学到的先验知识,在面对真实世界的反光金属、透明玻璃或复杂纹理时,性能常常急剧下降。
要系统性地弥合这道鸿沟,大规模的真实场景数据至关重要。今年3月底,这一局面出现了转机。
蚂蚁灵波开源了名为 LingBot-Depth-Dataset 的大规模RGB-D数据集,包含约300万对高质量的RGB-深度数据样本。每条数据均提供RGB图像、传感器原始深度图以及对应的真值深度图,为模型训练提供了完整的监督信号。
数据集总规模达2.71TB,其中包含约200万对真实采集的RGB-D数据与100万对高质量渲染数据。真实数据部分覆盖了Orbbec 335/335L,以及Intel RealSense D405/D415/D435/D455共6款市场主流深度相机,旨在尽可能还原不同硬件条件下的真实感知分布。
该数据集采用CC BY-NC-SA 4.0协议开源,允许学术研究及非商业用途的自由使用与再创作。

- 魔搭社区 ModelScope:https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
- HuggingFace:https://huggingface.co/datasets/robbyant/mdm_depth
该数据集的有效性已在模型层面得到验证。蚂蚁灵波于今年1月开源的具身智能感知模型 LingBot-Depth,正是基于此数据集训练而成。实际效果表明,该模型能在不更换硬件的前提下,显著提升对透明、反光等复杂材质场景的深度估计质量,在深度精度与像素覆盖率两项核心指标上,已全面优于当前市面顶尖的工业级RGB-D相机输出。
基于此,蚂蚁灵波决定将这套经过内部验证的数据完整开源,向社区开放。

(图注:基于LingBot-Depth-Dataset训练的LingBot-Depth模型,在传统深度传感器易失效的复杂场景中,仍能输出具备真实尺度的高精度深度结果。)
LingBot-Depth 相关链接:
* Hugging Face:https://huggingface.co/robbyant/lingbot-depth
* ModelScope:https://modelscope.cn/models/robbyant/lingbot-depth
* 技术报告:https://arxiv.org/abs/2601.17895
为何大规模真实数据至关重要?
理解LingBot-Depth-Dataset的价值,需先了解高质量真实深度数据难以获取的原因:
- 采集成本高昂:高质量的RGB-D数据采集需对RGB相机与深度传感器进行精确的时间同步与空间标定,标定精度直接影响深度图与彩色图的对齐质量。大规模、多场景的系统性采集,其工程复杂度远超普通视频录制。
- 传感器原始深度存在固有缺陷:结构光与ToF传感器获取的原始深度图常包含大量无效像素(空洞)、边缘飞点,并在反射或透明表面失效,无法直接作为训练真值,生成稠密、精确的真值深度图本身即是一项技术挑战。
- 真值标注获取困难:深度真值依赖物理测量或多传感器融合。激光雷达精度高但点云稀疏;结构光系统对光照敏感;立体匹配在纹理缺失区域易失效。大规模采集需在精度、成本与覆盖度之间权衡。
- 版权与开放意愿限制:工业界采集的数据常被视为竞争优势而非公共资源,导致学术界对数据的需求与工业界的数据封闭之间存在巨大落差。
正因上述原因,大规模、真实场景的RGB-D数据集在开源社区中始终是稀缺资源。
300万对RGB-D:一次数据规模的跃迁
蚂蚁灵波开源的300万对RGB-D样本,是目前开源社区中规模最大的真实场景RGB-D数据集之一。该数据集并非简单堆叠,而是围绕真实世界深度感知任务进行了结构化设计,包含四个子集:
- RobbyReal:1,400,000对多设备采集的真实室内场景数据,构成数据集核心。覆盖前述6款主流深度相机,旨在将不同设备的测距范围、噪声模式、边缘表现等差异提前引入训练分布,从而提升模型的跨硬件泛化能力,这对于需实际部署于机器人、AR设备等多样化硬件环境的模型至关重要。

(图注:RobbyReal数据集示例)
- RobbyVla:580,960对数据,采集自机器人执行视觉-语言-动作操作任务的实际过程。其视角与传统数据集截然不同:拍摄距离更近(20-50cm),对物体边缘深度精度要求极高,且包含大量桌面操作中常见的复杂光照与难测材质(金属、玻璃、透明塑料)。
这些特性使 RobbyVla 数据集具备了现有数据集难以替代的价值:其数据在真实具身任务约束下采集,场景分布与机器人学习任务高度匹配。对于旨在训练空间感知能力以服务于操作任务的研究者而言,该数据集可直接减少模型在分布外泛化时的性能损耗。

RobbyVla 数据集示例
RobbySim 是一个包含 999,264 对数据的仿真渲染数据集,其数据基于双相机视角生成。与单相机渲染易引入系统性视角偏差不同,双相机设置通过视差约束生成了几何一致性更可靠的深度图。

RobbySim 数据集示例
此外,RobbySimVal 验证集(38,976 对)提供了一个标准化的仿真场景评估基准,便于研究者在无需消耗真实数据的前提下,快速评估模型在仿真域的性能。

RobbySimVal 验证集示例
除了数据规模庞大,该数据集在质量上也设定了高标准。从原始采集到真值构建,研发团队并未简单依赖传感器原始输出,而是对深度数据进行了系统化处理与校正。
每条数据样本包含一张 RGB 图像、一张传感器原始深度图以及一张校正后的真值深度图。通过提供“原始观测”与“真值”的完整对照,模型不仅能学习深度预测,还能学习如何从带噪声的数据中恢复真实结构。
同时,数据在标注过程中遵循统一规范,对精度和一致性进行了严格控制,有效避免了因标签噪声导致的训练偏差。这在深度学习中尤为关键,错误的深度标签往往比没有标签更具破坏性。
正是在数量与质量的双重保障下,该数据集的价值超越了“可用数据集”的范畴,具备了更基础的意义。过去几年,行业焦点多集中于模型本身——更大的参数量、更复杂的架构、更强的推理能力。然而,一个日益清晰的共识是:模型能力的上限正越来越多地由数据决定。尤其在 AI 从数字世界走向物理世界的过程中,数据的重要性被放大:世界模型需要可交互的环境数据,机器人依赖长尾且真实的场景分布,多模态系统则必须对齐来自不同感知通道的信号。在此背景下,大规模、高质量、结构化的数据集正成为新的竞争核心。
该数据集的出现,实质上推动了一项更底层的转变:它让深度感知从一个依赖理想条件的实验室问题,逐步走向一个可落地、可复用的工程问题。
深度估计与补全领域长期面临一种困境:下游需求(如机器人、AR、自动驾驶)增长迅速,但基础数据资源的开放程度远不及图像识别、自然语言处理等领域。NYUv2 数据集在十多年后仍是标准评测集,某种程度上是由于缺乏更好的替代品,而非其本身已足够完善。
正如 ImageNet 重塑了计算机视觉,模拟环境推动了自动驾驶发展,对于具身智能而言,高质量的空间感知数据可能正是那个尚未被充分填补的关键缺口。该数据集有望成为深度估计与深度补全领域新一代的基准基础。
开源或许不会立即带来性能的飞跃,但它正在改变更底层的基础:我们终于开始拥有足够接近真实世界的高质量深度数据。在这一基础设施上的开源投入,使得后续研究团队无需从零开始采集数据,从而能将精力集中于更高层次的问题探索。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27930


