SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

3D生成技术面临“半开放”窘境

当前3D生成技术深陷“半开放”窘境:模型能够打造精美的样板间,却对真实世界中千变万化的物体与场景表现不稳定。

针对这一问题,IDEA研究院张磊团队与香港科技大学谭平团队联合推出了SceneMaker框架。该框架以万物检测模型DINO-X与万物3D生成模型Triverse为基础,实现了从任意开放世界图像(室内、室外、合成图等)到带Mesh的3D场景的完整重建。

它不仅解决了严重遮挡下的几何质量衰退难题,更具备文本指令可控的去遮挡能力,为真实世界感知与建模(Real-to-Sim)带来了关键突破。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

通过3D场景生成技术生产的开放世界场景

一、3D场景生成的“室内魔咒”

如何让计算机感知和建模真实世界(Real-to-Sim)一直是人工智能领域的核心挑战,而3D场景生成正是这一挑战中的关键任务之一。

该任务旨在从输入的场景图像中恢复完整的三维结构:模型需要生成开放世界下任意场景中各个物体的显式三维几何表示(如mesh),同时估计其在空间中的位姿信息,最终重构出可交互、可编辑的3D场景。

不同于传统的二维视觉理解,3D场景生成不仅要求模型具备对物体语义的准确感知,还需要深入理解物体的几何形态及其空间关系,从而具备更强的空间智能能力。因此,该方向在具身智能、虚拟现实以及游戏工业等领域有着不可估量的应用价值。

然而,3D场景数据的采集和标注成本极高,导致现有技术长期受限于数据规模,往往只能处理室内场景和少数家具类物体,无法应对开放世界中千奇百怪的物体和复杂环境,具体表现为:

(1)场景受限: 只能处理客厅、卧室等熟悉的室内场景,遇到街道、公园、桌面摆件等开放场景时则束手无策。

(2)遮挡难题: 现实中物体互相遮挡是常态,现有模型缺乏足够的“遮挡常识”,面对这种情况往往只能生成残缺、扭曲的3D几何形状。

(3)泛化不足: 对于训练数据中未见的物体(如小众手办、特殊工具),模型无法准确重建其3D结构,更难以估计其在空间中的位置和姿态。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

图1:SceneMaker在室内、室外、桌面等开放环境场景中都实现了卓越的性能,并展示了覆盖合成图像、文生图、真实世界拍摄图像的强大泛化能力。

二、SceneMaker:从室内走向开放世界

1. 技术原理

SceneMaker框架的目标是给定任意场景的图像,输出重建的3D场景,包含物体的三维几何和位姿信息。其核心思路是回归万物检测的原点,重新拆解难题,打造一条高效的3D场景生产线。如图2所示,整个框架分为三大模块:场景感知、三维物体重建和位姿估计

(1)场景感知: 让模型“看清”输入图像里有什么。团队使用DINO-X万物检测模型,精准识别图像中所有物体并进行分割,再通过深度估计模型得到对应的3D点云。

(2)三维物体重建: 为遮挡物体还原全貌。使用解耦的图像去遮挡模型对分割后的物体进行去遮挡,得到完整物体图像,输入Triverse万物重建模型完成任意物体的3D重建,获得显式几何(mesh)和纹理信息。

(3)位姿估计: 为物体找准位置。基于场景图像和点云,估计重建3D物体在场景中的旋转、平移和尺寸等位姿信息,并将所有物体按照位姿关系组合得到最终3D场景。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

图2:SceneMaker场景生成框架

2. 核心创新

受限于有限的3D场景数据,当前3D场景生成的核心问题是缺少开放世界下的去遮挡和位姿估计先验。即面对千奇百怪的陌生场景,模型既不会处理物体互相遮挡的情况,也难以理解物体的空间位置关系。为此,SceneMaker提出三大创新,大幅提升模型的去遮挡能力和开放世界的重建能力:

(1)解耦的去遮挡模块

现实场景中,物体互相遮挡是常态。传统3D模型因缺乏足够的3D遮挡数据训练,只能生成残缺、扭曲的3D形状。例如,将遮挡一半的杯子重建为“缺少杯壁”的畸形模型。SceneMaker的解决方案是将去遮挡模型从3D重建中解耦出来,充分利用图像数据集丰富的开放集先验,先对物体图像进行去遮挡,再进行3D重建。

具体而言,首先构建一个包含三种常见遮挡情况(物体遮挡、图像边角和用户涂抹)的图像去遮挡数据集,再基于海量图像数据训练“文本-图像”编辑模型,使其能精准还原被遮挡的部分。

如图3所示,相较于原生的3D重建方案,SceneMaker具备更强的去遮挡能力和更高精度的几何重建效果。同时如图4所示,SceneMaker还进一步支持文本可控的物体生成,能够控制不可见部分的内容(如花盆颜色、玩具背部等)。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

图3:在严重遮挡下对物体重建能力的对比。SceneMaker具有更完整和精细的几何表面。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

图4:文本可控的3D物体重建

(2)统一的位姿估计模型

如果说3D重建是制造零件,那么位姿估计就是组装零件,让每个物体知道“自己该在哪个位置、转多少角度、多大尺寸”。传统模型在这一步常犯两个错误:一是尺寸估计错误,例如“把手机建成平板电脑那么大”,或“把椅子建成凳子那么高”;二是位置混乱,例如“让杯子悬浮在茶几上方”,完全不符合现实物理逻辑。

问题的根源在于,传统模型未能针对性关注信息。例如,在估算物体旋转角度时,不应被整个房间的场景干扰;但在估算物体位置时,又必须参考周围环境。为此,SceneMaker的解决方案是:让模型结合全局和局部注意力机制,即图2中提及的统一的位姿估计模型,使其在需要专注细节时不分散,在需要顾全大局时不遗漏。

具体实现上,SceneMaker采用扩散模型作为基础,将场景图像、物体几何和点云作为条件变量,通过去噪的方式,精准计算出物体的位姿数据。如图5所示,在扩散模型中,每个物体由几何token和位姿token(平移、旋转、尺寸)唯一决定,每个DiTBlock包含四种分工合作的注意力机制:

1. 局部自注意力: 让单个物体的位姿和几何token在内部对齐,确保估计位姿时充分考虑物体的几何信息,让模型拿着物体初始模板去匹配位姿。

2. 全局自注意力: 让所有物体互相参考,例如杯子要放在茶几上、书本要放在桌子上,避免出现“物体互相穿透”、“悬浮在空中”等不合理场景。

3. 局部交叉注意力: 估算旋转角度时,只关注物体本身的图像和尺寸,不被周围环境干扰。例如无论杯子放在客厅还是卧室,其旋转角度都能被精准计算。

4. 全局交叉注意力: 估算位置和尺寸时,紧盯整个场景的点云和图像。例如根据茶几的大小,判断杯子的尺寸是否合理;根据房间的布局,确定椅子该放在桌子旁边还是墙角。

表1的消融实验证明,每个注意力模块都对模型性能有提升作用。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

图5:位姿估计模型的全局和局部注意力机制

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

表1:位姿估计模型消融实验

(3)自建大规模开放世界3D场景数据集

由于当下缺乏足够规模的开放世界3D场景数据集,团队基于Objaverse[6] 3D物体数据集,自行构建了包含20万个合成场景的数据集,用于模型训练。如图6所示,每个场景放置2到5个物体,包含每个物体的几何、位姿,以及20个不同相机视角下的RGB图像、分割图和深度图,并且该数据集完全开源。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

图6:SceneMaker 3D场景数据集样例

三、实验结果

如图7、表2和表3所示,在可视化和量化对比中,SceneMaker突破了现有方案对室内等使用场景的限制,实现了从任意开放世界图像(室内、室外、桌面场景)到基于物体mesh的3D场景重建,且均达到SOTA(当前最优)表现。SceneMaker进一步展示了覆盖合成图像、文生图、真实世界拍摄图像的强大泛化能力,以及更高质量和可控的去遮挡能力。

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

图7 SceneMaker与现有方案(MIDI3D[4]、Part-Crafter[5])在室内和开放世界场景下的可视化对比结果

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

表2 SceneMaker与现有方案在室内和开放世界场景的量化对比结果

SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

表3 SceneMaker与现有方案在MIDI3D数据集上的量化对比结果

四、应用场景

1. 具身智能

具身智能的核心是让机器人理解真实物理空间并完成交互任务。SceneMaker能从真实场景图像中重建高精度、带位姿信息的3D场景(包含室内、室外、桌面等环境),为机器人提供可交互的数字孪生环境,助力机器人完成路径规划、物体抓取、场景导航等任务,解决具身智能在开放世界环境感知与建模的核心痛点。

2. 自动驾驶/无人机

自动驾驶、无人机等领域需要大量仿真场景进行算法训练,但真实场景数据采集成本高、标注难度大。SceneMaker能将真实道路、城市街区、园区环境的图像转化为高精度3D仿真场景,同时解决现实中物体遮挡导致的模型失真问题,为自动驾驶仿真测试、无人机路径模拟提供高保真的虚拟训练环境。

3. 游戏工业建模

游戏开发中,开放世界地图和场景建模是耗时耗力的环节。SceneMaker可实现街道、公园、野外等开放游戏场景的快速3D重建,还能精准还原小众道具(如手办、特殊武器)的几何形态与空间位姿,帮助游戏厂商提升场景制作效率,丰富游戏内物体的多样性。

结语

SceneMaker依托DINO-X万物检测与Triverse 3D生成技术,通过解耦去遮挡模块、统一位姿估计模型及大规模开放数据集三大核心创新,攻克3D场景生成中场景受限、遮挡难题与泛化不足的痛点,实现从真实拍摄、合成图像到文生图的全场景3D重建突破,打开开放世界重建的大门。

从有限到无限的3D场景突破,意味着具身智能的数字孪生、自动驾驶的仿真训练、游戏工业的高效建模等场景将被重新定义。人工智能将更精准感知真实世界,模糊虚拟与现实的边界,为产业落地注入无限可能。

论文链接:
https://arxiv.org/abs/2512.10957

项目主页:
https://idea-research.github.io/SceneMaker/

开源代码:
https://github.com/IDEA-Research/SceneMaker

开源数据:
https://huggingface.co/datasets/LightillusionsLab/SceneMaker

参考文献:
[1] Shi, Yukai, et al. “SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model.” arXiv preprint arXiv:2512.10957 (2025).
[2] DINO-X: https://cloud.deepdataspace.com/.
[3] Triverse: https://triverse.ai/.
[4] Huang, Zehuan, et al. “Midi: Multi-instance diffusion for single image to 3d scene generation.” Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[5] Lin, Yuchen, et al. “PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers.” arXiv preprint arXiv:2506.05573 (2025).
[6] Deitke, Matt, et al. “Objaverse: A universe of annotated 3d objects.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023.


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18782

(0)
上一篇 2026年1月25日 上午11:12
下一篇 2026年1月25日 上午11:31

相关推荐

  • REFRAG:突破RAG性能瓶颈,利用注意力稀疏性实现30倍加速

    随着大语言模型在检索增强生成(RAG)系统中的广泛应用,一个日益突出的性能问题浮出水面:上下文窗口的持续扩展导致首个token生成延迟呈二次方增长,严重制约了系统的实时响应能力。传统RAG流程虽然简单直接——将查询编码为向量,从向量数据库中检索相似文本块,然后完整输入给LLM处理——但这种方法存在显著效率缺陷。大多数检索到的文本块包含大量无关内容,迫使LLM…

    2025年10月17日
    18200
  • 腾讯开源YOLO-Master:混合专家MoE赋能实时目标检测,开启端侧AI自适应计算新时代

    关键词: YOLO-Master、混合专家(MoE)、实时目标检测、动态路由、ES-MoE 动态计算,按需分配:YOLO-Master 如何用 MoE 重新定义实时目标检测 实时目标检测(Real-Time Object Detection, RTOD)是计算机视觉领域的核心任务之一,从自动驾驶到工业质检,从安防监控到移动端应用,都离不开它的身影。YOLO …

    2026年2月19日
    14900
  • Emu3.5:原生多模态世界模型的突破与全场景应用解析

    Emu3.5是由北京智源研究院最新发布的大规模多模态世界模型,其核心创新在于原生支持视觉与语言的联合状态预测。该模型采用统一的下一token预测目标进行端到端预训练,训练数据规模超过10万亿token,主要来源于互联网视频的连续帧及其转录文本,这为模型理解动态视觉序列与语言描述的关联性奠定了坚实基础。 模型架构设计上,Emu3.5天然接受交错的视觉-语言输入…

    2025年11月1日
    18600
  • ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

    百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的…

    2026年1月24日
    1.2K00
  • Hulu-Med:开源统一医学视觉语言大模型,破解医疗AI碎片化与透明度困局

    在医疗人工智能领域,长期以来存在着两大核心挑战:任务与模态的碎片化,以及技术实现的不透明性。传统医学AI模型通常针对特定任务(如影像诊断、病理分析或手术指导)和单一模态(如2D图像、3D体积或文本)进行优化,形成了众多性能卓越但彼此孤立的“专科助手”。这种碎片化架构不仅导致临床应用中需要拼凑复杂系统来处理多模态数据,增加了维护成本,更限制了AI从跨模态关联中…

    2025年11月13日
    20300