PartCrafter：结构化3D生成革命，从单图到可编辑部件级网格的端到端突破

在计算机图形学与人工智能生成内容（AIGC）的交叉领域，从单张二维图像直接生成高质量三维模型一直是学术界和工业界共同追求的目标。然而，传统3D生成模型普遍存在一个根本性局限：它们将三维物体视为不可分割的“黑箱”整体进行处理，生成的模型虽然外观逼真，但内部结构完全融合，用户无法对个别部件（如椅子的腿、汽车的轮子、桌子的抽屉）进行独立编辑、移动、旋转或替换。这种“整体式”范式严重制约了3D内容在游戏开发、虚拟现实、工业设计、电子商务等领域的实际应用价值，因为在这些场景中，部件的可定制性和可编辑性至关重要。

为了突破这一瓶颈，传统的解决方案通常依赖于“分割-重建”的两阶段流程：首先使用图像分割算法识别出图像中的各个部件，然后对每个部件分别进行三维重建，最后将它们组合起来。这种方法不仅流程繁琐、耗时漫长（通常需要20分钟以上），更重要的是极其脆弱——初始2D分割阶段的任何微小误差都会在后续重建过程中被放大，导致最终3D模型出现严重的结构错误或部件错位。这种错误累积效应使得两阶段方法在实际应用中可靠性不足。

正是在这样的技术背景下，来自北京大学、字节跳动和卡耐基梅隆大学的研究团队联合提出了PartCrafter，这是一款开创性的结构化3D生成模型。PartCrafter的核心创新在于实现了端到端的结构化生成：它能够直接从单张2D图像，一次性生成由多个具有语义意义、且可独立操作的部件构成的复杂3D网格模型。这一突破不仅彻底解决了传统方法的编辑难题，更在生成速度上实现了质的飞跃——从分钟级缩短到秒级，同时保持了出色的生成质量。该研究已被人工智能顶级会议NeurIPS 2025接收，并在GitHub开源后迅速获得超过2000颗星标，引发了学术与工业界的广泛关注。本研究的项目负责人为Panwang Pan。

PartCrafter的技术架构设计精妙，其核心在于解决了结构化生成中的核心矛盾：如何在生成过程中既保持各个部件的独立性，又确保它们能够和谐地组合成一个结构合理、比例协调的整体三维物体。为了实现这一目标，研究团队提出了两大关键技术：组合式潜在空间与局部-全局联合去噪机制。

首先，PartCrafter引入了“组合式潜在空间”的概念。与传统的单一潜在表示不同，PartCrafter为三维物体的每个部件都分配了一组独立的潜在变量（Latent Tokens）。这种设计从表征层面将物体解构为多个部分的组合，为部件级生成奠定了理论基础。更重要的是，为了让模型能够准确区分不同部件的语义角色（例如区分椅子的“座面”和“靠背”），研究者为每一组部件的token引入了一个可学习的“部件身份嵌入”。这个嵌入向量就像每个部件的独特“身份证”，编码了该部件的类别、功能和在整体中的相对位置等语义信息，极大地增强了模型对部件独立身份的感知能力。

其次，PartCrafter设计了一种新颖的“局部-全局联合去噪Transformer”架构。如果让各个部件完全独立生成然后简单拼接，必然会导致部件之间布局混乱、比例失调、连接处不匹配等问题。为此，该架构通过两个协同工作的分支来确保生成结果的内在一致性与整体协调性。

“局部分支”专注于单个部件内部的几何结构与细节生成。它通过在部件自身的潜在token集合内部进行自注意力计算，确保每个生成部件（如一只桌腿、一个车轮）的形状是完整、合理且细节丰富的。

“全局分支”则负责协调不同部件之间的空间关系、相对比例和语义关联。它会整合所有部件的潜在token，从整体视角进行注意力计算，动态调整各个部件的生成过程，确保所有部件能够按照正确的空间布局、合理的尺寸比例和谐地组合在一起，形成一个连贯、逼真的三维物体。

在整个去噪生成过程中，输入的图像条件会持续引导模型，确保最终生成的三维模型不仅在部件结构上符合要求，其整体形态、视角和外观也与输入图像高度一致。

高质量数据是训练先进AI模型的基石。对于PartCrafter这样的结构化生成模型而言，挑战尤为严峻：它需要大规模、高质量且带有精确部件级标注的三维数据集进行监督训练。然而，现有的大型3D数据集（如Objaverse、ShapeNet、ABO等）虽然包含海量三维模型，但普遍缺乏精细的部件级语义分割标注。

为了攻克这一数据瓶颈，PartCrafter团队投入大量精力，通过系统化地挖掘、清洗和整合多个主流3D资源库，自主构建了一个专为部件级生成任务设计的大规模高质量数据集。该数据集最终包含了约13万个三维对象，其中约10万个对象拥有精确的多部件语义标注。在构建过程中，研究团队制定了极为严格的筛选标准，包括评估模型的几何完整性、纹理贴图质量、部件数量的合理性，以及计算部件间的平均交并比（IoU）以排除标注模糊或重叠严重的样本。经过层层筛选，团队最终精选出约5万个具备高质量部件标签的三维对象，这些对象共计包含超过30万个独立的、可用于监督训练的三维部件。这一数据集的构建不仅为PartCrafter的成功训练提供了关键支撑，其开源也将为整个结构化3D生成领域的研究提供宝贵的公共资源。

研究团队在广泛的实验中对PartCrafter进行了全面验证，测试场景涵盖了两大方向：生成具有独立部件的单个3D物体，以及创建由多个物体组合而成的复杂3D场景。这证明了模型强大的泛化能力和应用潜力。

在定量评估方面，PartCrafter在物体部件级生成任务上表现卓越。与同样探索部件级生成的先进模型HoloPart相比，PartCrafter在多项关键指标上均展现出显著优势。在生成质量上，PartCrafter生成的部件在几何准确性、表面光滑度和语义合理性方面更胜一筹；在生成效率上，PartCrafter实现了革命性的提升：在给定单张输入图像后，模型仅需约34秒即可生成高保真、部件清晰可分的三维网格，速度比传统两阶段方法快数十倍。这种“秒级生成”能力使其具备了实际部署和应用的可能性。

PartCrafter的出现，标志着3D AIGC从“整体生成”迈向“结构化生成”的关键一步。它不仅仅是一个技术模型，更代表了一种新的内容创作范式：模块化、可编辑、高可控。其意义深远，首先，它极大地降低了专业3D内容创作的门槛，设计师或开发者可以通过简单的2D草图或参考图，快速获得可灵活编辑的3D原型。其次，它为下游应用打开了新的想象空间，例如在游戏开发中快速生成可换装的角色资产，在电商中创建允许用户自定义配置的产品3D展示，在虚拟现实中构建可交互的复杂场景。最后，其“组合式生成”的思想可能启发更广泛的AI生成领域，推动文本、图像、视频等内容生成向更结构化、更可控的方向发展。

展望未来，PartCrafter仍有一些值得探索的方向，例如如何处理更加开放域、未见过的物体类别，如何进一步提升部件连接处的生成质量，以及如何与文本、语音等多模态条件更深度地结合。但毋庸置疑，PartCrafter已经为3D内容创作的未来描绘出了一幅清晰而激动人心的蓝图。

— 图片补充 —