3D模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本,训练效果有待提升。
近年来,利用成熟海量的2D实例分割数据来辅助实现3D实例分割成为一个极具潜力的研究方向,但实现思路不尽相同。
近日,IDEA计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)的张磊团队提出了一种名为OVSeg3R的开集3D实例分割学习新范式。
该范式基于团队此前发布的最强闭集3D实例分割模型SegDINO3D,拓展至开放词表,大幅缩小了长尾类与头部类的性能差距(差距从11.3 mAP降至1.9 mAP),实现了开集3D实例分割的性能飞跃。
与传统训练范式相比,OVSeg3R无需对输入点云进行人工后处理,也不需要高成本的物体3D掩码人工标注,大幅降低了3D实例分割的训练成本。这有望让3D实例分割从“只能识别已知类别”的闭集模式,迈向“可识别未知类别”的开集模式,从而推动其在自动驾驶、智能家居、机器人导航等需要精准3D场景理解的领域实现商业落地。
一、3D感知的“卡脖子”难题
3D实例分割旨在让计算机像人眼一样,理解三维空间中的每一个物体,并精准勾勒出每个物体的边界范围。
这项技术是自动驾驶、机器人服务等智能场景的“眼睛”。没有它,自动驾驶汽车就难以区分行人与障碍物,服务机器人也无法定位需要递送物品的桌面。
尽管3D实例分割技术已发展多年,但行业内一直存在一个核心瓶颈:3D数据的获取和标注成本太高,难度太大。
通过一个直观对比可以理解这个问题:2D图像标注相对简单,标注员在图片上框选物体、标注类别即可,一张图片几分钟就能完成;但3D数据标注完全不同,它需要处理的是由无数三维坐标点组成的场景模型(即点云)。
标注员要在这个立体模型中,不断调整视角、逐点勾勒出每个物体的轮廓(即3D掩码)。这一操作不仅需要专业的3D建模知识,还极其耗时。
这种模式直接导致了3D感知模型的训练数据,在数量和类别丰富度上远远落后于2D图像数据。
行业内也尝试过通过外挂2D感知模型或逐场景优化来解决这个问题,但这些方法大多存在明显缺陷,典型的解决方案如:
- 将3D感知模型的任务收缩到仅输出3D掩码,掩码对应的类别则通过投影回到2D图像,交由外挂的2D感知模型进行分类。
简而言之,就是让3D模型只负责“找到物体”,然后将找到的物体投影回2D图像,让成熟的2D模型来判断“这是什么”。这种方法虽然利用了2D模型的强大分类能力,但3D模型本身发现新物体的能力并未提升,依然只能识别训练过的有限类别,无法应对未知物体。 - 将多视角的2D感知结果借助深度图投影到3D空间,再通过启发式算法(基于人工设定规则)将多视角的感知结果聚合,让属于同一个3D实例的掩码合并。
这类似于用多张不同角度的照片拼接立体模型,看似可行,但拼接所用的基于规则的算法非常脆弱。一旦物体被遮挡或重建噪声过大,都可能导致拼接错误,最终影响识别精度,性能上限较低。 - 通过3D高斯技术将3D场景投影成2D图像,用2D模型的识别结果来训练3D模型。
但这种方法有个致命问题:需要针对每个场景单独优化3D高斯表征,就像为每个房间绘制专属地图,无法通用,极大限制了模型的实用性。

△ 图1 左图为传统的训练方案;右图是OVSeg3R的训练方案
正是在这样的背景下,研究团队提出了OVSeg3R,其核心思路在于:既然2D感知模型已经很成熟、数据也足够丰富,那就让3D模型向2D模型学习。
连接两者的关键是3D重建技术。通过使用3D重建降低数据获取成本,同时利用其提供的2D与3D映射关系,将2D模型的识别结果迁移到3D空间,从而自动生成3D训练标注,形成数据闭环。
二、OVSeg3R的技术原理
要实现3D模型向2D模型学习的核心思路,OVSeg3R需要解决两个关键难题:
一是3D重建结果通常比较平滑,就像场景被磨平了一样,一些几何结构不突出的物体(如薄纸巾、扁平的垫子)会与背景融为一体,导致3D感知模型难以发现它们;
二是如果简单地将各个视角的2D感知结果投影到重建出的3D场景中,那么,只要一个3D实例在某个视角下可见,就会产生一个标注,从而导致过多的重复标注,极大地影响了模型训练过程的稳定性。
为解决上述难题,OVSeg3R设计了一套清晰的三阶段学习范式:

△ 图2 OVSeg3R的学习范式
1. 基本数据准备
首先,研究团队输入一段场景视频。这段视频会被分成两条路径处理:
- 一条路径送入3D重建模型,生成场景的3D点云(即立体模型),同时获得2D图像像素与3D点云坐标的对应关系;
- 另一条路径送入成熟的2D分割模型,获取图像级、物体级的特征(作为SegDINO3D特征的补充),同时提供2D实例分割结果及对应的各个实例的类别名称。
2. 模型输入和标注准备
这一阶段的核心是将2D模型的知识转化为3D模型能理解的训练资料,同时解决3D重建平滑和重复标注的问题,具体包含四个步骤:
- 为3D点附加语义标签:基于重建提供的2D与3D对应关系,为每个3D点提供其对应的、富含语义信息的2D图像特征。相比SegDINO3D,这一步无需额外计算相机参数来匹配2D和3D。
- 对点云进行分组:将庞大的3D点云划分成一个个小的超级点(superpoint)。关键在于,划分不仅依据几何结构的连续性(例如,桌面上某块平滑连续区域中的点被归为一个超级点),还参考了2D分割结果作为判断超级点边界的依据(例如,“相片”的点与“墙面”的点即使在几何结构上连续,也不会被归为一组)。研究团队将这种划分方式称为“基于实例边界的超级点”(IBSp,Instance-Boundary-aware Superpoint)(如图3中的(b)所示)。IBSp不仅提高了模型训练的稳定性,对于实际应用场景也具有重要意义(用户通常没有3D传感器,输入通常为视频)。
- 制作分类参考依据:将2D感知模型识别出的所有物体类别名称拼接成一个字符串,形成文本提示(text prompt),作为后续分割模型进行开集分类时的依据。在实际推理时,用户可以指定任意的文本提示。
- 生成分视角标注:将每个视角的2D分割结果,通过2D与3D的对应关系投影到3D空间,生成每个视角对应的子场景3D标注(如图3中的(a)所示)。

△ 图3 对应上述OVSeg3R技术中两个关键步骤的可视化说明
3. 模型学习
这一步的核心是让3D模型(基于SegDINO3D拓展的SegDINO3D-VL)学习并掌握开集分割能力,具体过程可分为“特征提取-解码-监督学习”三个环节:
特征提取: 将3D重建得到的带噪点云及其各点对应的2D语义特征,共同输入3D骨干网络,提取每个点的3D特征。随后,依据预先划分的超级点对这些特征进行聚合,得到超级点级别的3D特征。
特征解码: 超级点级别的3D特征被送入Transformer解码器,解码出实例级特征。这些特征有两个用途:一是与超级点特征计算相似度,以生成分割结果;二是为了将分类能力拓展至开放世界,研究团队将这些特征与从文本提示中提取的文本特征计算相似度,从而获得开集分类结果。这一增强版的模型被命名为SegDINO3D-VL。
监督学习: 研究团队设计了一种名为“视角级实例划分(VIP,View-wise Instance Partition)” 的策略。该策略将模型预测的分割结果划分到其所属的视角,并利用第二阶段生成的分视角标注进行监督学习。简而言之,模型仅在当前视角的标注范围内进行学习,避免了将其他视角的重复标注纳入计算,从而极大地提升了训练的稳定性。
通过上述方案创新,OVSeg3R在极具挑战性的ScanNet200 3D实例分割基准测试中,不仅大幅超越了所有现有的开集模型,同时刷新了闭集模型的最新记录。它将长尾类别与头部类别的性能差距从11.3 mAP急剧缩小至1.9 mAP,彻底改善了类别性能不均衡的问题。

△ 图4 OVSeg3R刷新ScanNet200 3D实例分割基准的闭集和开集记录
在标准的开集设定下(仅使用20类人工标注进行训练,需要在200类上进行测试,其中与人工标注的20个类别概念有显著差异的类别被定义为新类别),OVSeg3R在新类别上的性能(mAPn)较此前最优方法提升了7.7 mAP,展现出显著的开集识别优势。

△ 图5 在标准的开集设定下,OVSeg3R在新类别上表现显著优势
如图6、图7所示,由于几何结构稀疏(如三脚架)以及细小物体(如瓶子、鼠标、插排)在充满噪声的点云上进行人工标注的难度极高,现有数据集中这些类别的样本严重缺失,导致已有算法难以处理。然而,OVSeg3R仍能稳定地识别并分割出这些物体。

△ 图6 OVSeg3R稳定识别出细小物体和几何结构稀疏物体

△ 图7 更多实际场景的结果可视化
三、应用场景
OVSeg3R在成本与开集识别方面的强大优势,有望在推动开集3D实例分割的实际应用中发挥关键作用。以具身智能为例:
OVSeg3R正在打破制约具身智能发展的“数据成本”与“开放世界”双重壁垒。
通过消除对昂贵人工3D标注的依赖,OVSeg3R利用3D重建与2D基础模型从原始视频中自动生成高质量语义标签,显著降低了机器人感知系统的训练与迁移成本。
在语义导航与长程规划中,OVSeg3R的开集识别优势使其能够精准定位训练集中未见的“长尾”物体。
例如,它可以成功识别几何特征微弱的电源插座或细长的三脚架,有效解决了在传统数据集上训练的模型对扁平或细小物体“视而不见”的难题,确保了机器人自主充电与避障的安全性。
在精细操作场景下,OVSeg3R利用2D视觉的丰富纹理信息弥补了3D几何信息的不足。
面对白色塑料袋等几何模糊、易与地面混淆的非刚性物体,OVSeg3R能凭借其IBSp(2D实例边界感知超点)技术生成精确的3D掩码,为机器人抓取与导航应用奠定空间感知基础。
作为一种可扩展的“数据引擎”,OVSeg3R能够将海量视频转化为机器人的3D语义知识,不仅弥合了仿真到现实(Sim-to-Real)的语义鸿沟,更为构建低成本、高泛化能力的通用具身智能系统铺平了道路。
现阶段,该技术成果的产业转化已取得进展,并由IDEA孵化企业视启未来主导推动落地。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18205
