OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

3D模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本,训练效果有待提升。

近年来,利用成熟海量的2D实例分割数据来辅助实现3D实例分割成为一个极具潜力的研究方向,但实现思路不尽相同。

近日,IDEA计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)的张磊团队提出了一种名为OVSeg3R的开集3D实例分割学习新范式。

该范式基于团队此前发布的最强闭集3D实例分割模型SegDINO3D,拓展至开放词表,大幅缩小了长尾类与头部类的性能差距(差距从11.3 mAP降至1.9 mAP),实现了开集3D实例分割的性能飞跃。

与传统训练范式相比,OVSeg3R无需对输入点云进行人工后处理,也不需要高成本的物体3D掩码人工标注,大幅降低了3D实例分割的训练成本。这有望让3D实例分割从“只能识别已知类别”的闭集模式,迈向“可识别未知类别”的开集模式,从而推动其在自动驾驶、智能家居、机器人导航等需要精准3D场景理解的领域实现商业落地。

一、3D感知的“卡脖子”难题

3D实例分割旨在让计算机像人眼一样,理解三维空间中的每一个物体,并精准勾勒出每个物体的边界范围。

这项技术是自动驾驶、机器人服务等智能场景的“眼睛”。没有它,自动驾驶汽车就难以区分行人与障碍物,服务机器人也无法定位需要递送物品的桌面。

尽管3D实例分割技术已发展多年,但行业内一直存在一个核心瓶颈:3D数据的获取和标注成本太高,难度太大。

通过一个直观对比可以理解这个问题:2D图像标注相对简单,标注员在图片上框选物体、标注类别即可,一张图片几分钟就能完成;但3D数据标注完全不同,它需要处理的是由无数三维坐标点组成的场景模型(即点云)。

标注员要在这个立体模型中,不断调整视角、逐点勾勒出每个物体的轮廓(即3D掩码)。这一操作不仅需要专业的3D建模知识,还极其耗时。

这种模式直接导致了3D感知模型的训练数据,在数量和类别丰富度上远远落后于2D图像数据。

行业内也尝试过通过外挂2D感知模型或逐场景优化来解决这个问题,但这些方法大多存在明显缺陷,典型的解决方案如:

  1. 将3D感知模型的任务收缩到仅输出3D掩码,掩码对应的类别则通过投影回到2D图像,交由外挂的2D感知模型进行分类。
    简而言之,就是让3D模型只负责“找到物体”,然后将找到的物体投影回2D图像,让成熟的2D模型来判断“这是什么”。这种方法虽然利用了2D模型的强大分类能力,但3D模型本身发现新物体的能力并未提升,依然只能识别训练过的有限类别,无法应对未知物体。
  2. 将多视角的2D感知结果借助深度图投影到3D空间,再通过启发式算法(基于人工设定规则)将多视角的感知结果聚合,让属于同一个3D实例的掩码合并。
    这类似于用多张不同角度的照片拼接立体模型,看似可行,但拼接所用的基于规则的算法非常脆弱。一旦物体被遮挡或重建噪声过大,都可能导致拼接错误,最终影响识别精度,性能上限较低。
  3. 通过3D高斯技术将3D场景投影成2D图像,用2D模型的识别结果来训练3D模型。
    但这种方法有个致命问题:需要针对每个场景单独优化3D高斯表征,就像为每个房间绘制专属地图,无法通用,极大限制了模型的实用性。

OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

图1 左图为传统的训练方案;右图是OVSeg3R的训练方案

正是在这样的背景下,研究团队提出了OVSeg3R,其核心思路在于:既然2D感知模型已经很成熟、数据也足够丰富,那就让3D模型向2D模型学习。

连接两者的关键是3D重建技术。通过使用3D重建降低数据获取成本,同时利用其提供的2D与3D映射关系,将2D模型的识别结果迁移到3D空间,从而自动生成3D训练标注,形成数据闭环。

二、OVSeg3R的技术原理

要实现3D模型向2D模型学习的核心思路,OVSeg3R需要解决两个关键难题

一是3D重建结果通常比较平滑,就像场景被磨平了一样,一些几何结构不突出的物体(如薄纸巾、扁平的垫子)会与背景融为一体,导致3D感知模型难以发现它们;

二是如果简单地将各个视角的2D感知结果投影到重建出的3D场景中,那么,只要一个3D实例在某个视角下可见,就会产生一个标注,从而导致过多的重复标注,极大地影响了模型训练过程的稳定性。

为解决上述难题,OVSeg3R设计了一套清晰的三阶段学习范式:

OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

图2 OVSeg3R的学习范式

1. 基本数据准备

首先,研究团队输入一段场景视频。这段视频会被分成两条路径处理:

  • 一条路径送入3D重建模型,生成场景的3D点云(即立体模型),同时获得2D图像像素与3D点云坐标的对应关系;
  • 另一条路径送入成熟的2D分割模型,获取图像级、物体级的特征(作为SegDINO3D特征的补充),同时提供2D实例分割结果及对应的各个实例的类别名称。

2. 模型输入和标注准备

这一阶段的核心是将2D模型的知识转化为3D模型能理解的训练资料,同时解决3D重建平滑和重复标注的问题,具体包含四个步骤:

  • 为3D点附加语义标签:基于重建提供的2D与3D对应关系,为每个3D点提供其对应的、富含语义信息的2D图像特征。相比SegDINO3D,这一步无需额外计算相机参数来匹配2D和3D
  • 对点云进行分组:将庞大的3D点云划分成一个个小的超级点(superpoint)。关键在于,划分不仅依据几何结构的连续性(例如,桌面上某块平滑连续区域中的点被归为一个超级点),还参考了2D分割结果作为判断超级点边界的依据(例如,“相片”的点与“墙面”的点即使在几何结构上连续,也不会被归为一组)。研究团队将这种划分方式称为“基于实例边界的超级点”(IBSp,Instance-Boundary-aware Superpoint)(如图3中的(b)所示)。IBSp不仅提高了模型训练的稳定性,对于实际应用场景也具有重要意义(用户通常没有3D传感器,输入通常为视频)。
  • 制作分类参考依据:将2D感知模型识别出的所有物体类别名称拼接成一个字符串,形成文本提示(text prompt),作为后续分割模型进行开集分类时的依据。在实际推理时,用户可以指定任意的文本提示。
  • 生成分视角标注:将每个视角的2D分割结果,通过2D与3D的对应关系投影到3D空间,生成每个视角对应的子场景3D标注(如图3中的(a)所示)。

OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

图3 对应上述OVSeg3R技术中两个关键步骤的可视化说明

3. 模型学习

这一步的核心是让3D模型(基于SegDINO3D拓展的SegDINO3D-VL)学习并掌握开集分割能力,具体过程可分为“特征提取-解码-监督学习”三个环节:

特征提取: 将3D重建得到的带噪点云及其各点对应的2D语义特征,共同输入3D骨干网络,提取每个点的3D特征。随后,依据预先划分的超级点对这些特征进行聚合,得到超级点级别的3D特征。

特征解码: 超级点级别的3D特征被送入Transformer解码器,解码出实例级特征。这些特征有两个用途:一是与超级点特征计算相似度,以生成分割结果;二是为了将分类能力拓展至开放世界,研究团队将这些特征与从文本提示中提取的文本特征计算相似度,从而获得开集分类结果。这一增强版的模型被命名为SegDINO3D-VL。

监督学习: 研究团队设计了一种名为“视角级实例划分(VIP,View-wise Instance Partition)” 的策略。该策略将模型预测的分割结果划分到其所属的视角,并利用第二阶段生成的分视角标注进行监督学习。简而言之,模型仅在当前视角的标注范围内进行学习,避免了将其他视角的重复标注纳入计算,从而极大地提升了训练的稳定性。

通过上述方案创新,OVSeg3R在极具挑战性的ScanNet200 3D实例分割基准测试中,不仅大幅超越了所有现有的开集模型,同时刷新了闭集模型的最新记录。它将长尾类别与头部类别的性能差距从11.3 mAP急剧缩小至1.9 mAP,彻底改善了类别性能不均衡的问题。

OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

图4 OVSeg3R刷新ScanNet200 3D实例分割基准的闭集和开集记录

在标准的开集设定下(仅使用20类人工标注进行训练,需要在200类上进行测试,其中与人工标注的20个类别概念有显著差异的类别被定义为新类别),OVSeg3R在新类别上的性能(mAPn)较此前最优方法提升了7.7 mAP,展现出显著的开集识别优势。

OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

图5 在标准的开集设定下,OVSeg3R在新类别上表现显著优势

如图6、图7所示,由于几何结构稀疏(如三脚架)以及细小物体(如瓶子、鼠标、插排)在充满噪声的点云上进行人工标注的难度极高,现有数据集中这些类别的样本严重缺失,导致已有算法难以处理。然而,OVSeg3R仍能稳定地识别并分割出这些物体。

OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

图6 OVSeg3R稳定识别出细小物体和几何结构稀疏物体

OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注

图7 更多实际场景的结果可视化

三、应用场景

OVSeg3R在成本与开集识别方面的强大优势,有望在推动开集3D实例分割的实际应用中发挥关键作用。以具身智能为例:

OVSeg3R正在打破制约具身智能发展的“数据成本”与“开放世界”双重壁垒。

通过消除对昂贵人工3D标注的依赖,OVSeg3R利用3D重建与2D基础模型从原始视频中自动生成高质量语义标签,显著降低了机器人感知系统的训练与迁移成本。

在语义导航与长程规划中,OVSeg3R的开集识别优势使其能够精准定位训练集中未见的“长尾”物体

例如,它可以成功识别几何特征微弱的电源插座或细长的三脚架,有效解决了在传统数据集上训练的模型对扁平或细小物体“视而不见”的难题,确保了机器人自主充电与避障的安全性

在精细操作场景下,OVSeg3R利用2D视觉的丰富纹理信息弥补了3D几何信息的不足。

面对白色塑料袋等几何模糊、易与地面混淆的非刚性物体,OVSeg3R能凭借其IBSp(2D实例边界感知超点)技术生成精确的3D掩码,为机器人抓取与导航应用奠定空间感知基础

作为一种可扩展的“数据引擎”,OVSeg3R能够将海量视频转化为机器人的3D语义知识,不仅弥合了仿真到现实(Sim-to-Real)的语义鸿沟,更为构建低成本、高泛化能力的通用具身智能系统铺平了道路

现阶段,该技术成果的产业转化已取得进展,并由IDEA孵化企业视启未来主导推动落地。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18205

(0)
上一篇 2026年1月17日 上午10:26
下一篇 2026年1月17日 上午10:46

相关推荐

  • 三大惊艳GitHub项目:AI论文助手、UI主题定制与开源知识库,提升你的技术生产力

    读论文 Agent 面对专业学术论文,理解内容已属不易,总结要点与生成思维导图更是耗时费力。Paper Burner X 这款开源工具,集文献识别、翻译、阅读与智能分析于一体,在浏览器中即可直接使用,旨在化解这一难题。 它是一个纯前端实现的智能分析系统,能够自主调用工具进行多步推理,并支持长论文翻译,同时完整保留原文中的公式、图表等复杂格式。 主要功能:* …

    2025年12月3日
    7900
  • 五大AI开源神器:从GLM-4.7编程突破到手机集群推理,重塑开发新范式

    智谱开源 GLM-4.7 智谱 GLM-4.7 正式发布并官宣即将开源。 在 LiveCodeBench 和 Code Arena 等多个权威榜单中,它取得了国产第一、开源第一的成绩。其综合编程能力已直逼甚至在某些维度超越了 Claude 4.5 Sonnet。 近期,智谱已向港交所递交招股书,冲击全球大模型第一股。这表明国产大模型在编程这一核心赛道上,已具…

    2025年12月24日
    17600
  • GitHub精选:4款实用开源工具,从年会抽奖到PDF处理一网打尽

    年会抽奖开源项目 推荐两个适用于年会场景的GitHub开源抽奖工具。 log-lottery该项目支持3D标签云效果,可将所有参与者的名字组合成旋转的球体、螺旋或网格,视觉效果颇具科技感。 无需编程知识,通过Excel导入人员名单并在后台简单设置奖项即可使用。项目支持播放抽奖音乐以烘托氛围,抽奖结果可直接导出为Excel文件。 lottery另一个基于 Ex…

    2025年12月10日
    8600
  • 5个必看的Claude Skills开源项目:模块化AI能力扩展实战指南

    Claude Skills:模块化AI能力扩展机制 Anthropic推出的Claude Skills是一种模块化能力扩展机制。通过它,用户无需每次都为AI重复解释特定任务的要求。 你可以将希望Claude掌握的经验或流程编写到一个 Skill.md 文件中。该文件本质上是一份详细的指令说明书、可执行脚本或资源集合,专门用于完成某项特定任务。例如,你可以创建…

    2025年11月23日
    6900
  • 五大前沿AI开源项目盘点:从PPT生成到金融强化学习,赋能未来工作流

    Nano Banana PPT Banana-slides 是基于 Nano Banana Pro 模型开源的 AI PPT 生成应用,旨在解决传统 AI PPT 工具模板僵化、设计感差和素材质量低的问题。 一句话生成 PPT:用户只需输入一个简单的想法,即可快速获得完整的大纲、页面描述以及最终的 PPT 文稿。 该工具支持上传参考风格图片或示例 PPT 模…

    2025年12月11日
    12200