如果把当前主流的几条3D生成技术路线放在一起审视,你会发现它们正面临一个相似的困境。
从事3D AIGC的研究者会发现,模型越来越擅长“生成一个物体”,但生成结果的复杂度却相对固定,缺乏灵活性;从事图形学和渲染的人更关注的是,3D表示能否将有限的计算预算精准投入到最需要的地方;而做游戏、XR和交互内容的人则会追问,同一个3D资产是否能同时拥有高质量版本和轻量版本,而不是每次都要从头制作一套。
这些问题的背后,都指向同一个核心矛盾:
如今许多3D生成方法虽然能产出3D结果,但还远远没有学会“合理分配资源”。
以3D高斯表示为例,哪里应该密集地放置高斯球,哪里可以稀疏一些;哪里值得投入更多的表示能力,哪里只需一个粗略的近似——很多方法实际上并没有真正掌握这一点。现有方法更像是用一种固定模板来生成3D,而不是根据物体本身的结构复杂度,自适应地决定“该放多少高斯球、放在哪里”。
SIGGRAPH 2026论文《Generative 3D Gaussians with Learned Density Control》正是为了解决这个问题而诞生的。

- 论文:《Generative 3D Gaussians with Learned Density Control》
- 论文链接:https://arxiv.org/abs/2605.16355
这项工作来自VAST和清华大学,提出了一种新的3D表示方式——Density-Sampled Gaussians(DeG)。它的目标不是简单地生成固定数量的3D高斯球,而是让模型自己学会一种“高斯球采样策略”:在复杂区域多放置高斯球,在简单区域少放置高斯球,并且这种策略还能直接从渲染误差中学习出来。
这听起来像是一个工程优化问题,但实际上非常关键。因为它决定了3D生成的结果最终是一个“看起来还行但很笨重的静态输出”,还是一个真正可以按预算伸缩、按需求部署、按场景适配的3D表示。
在过去一段时间里,3D高斯之所以火热,一个很重要的原因是它在画质和效率之间找到了很好的平衡点。它不需要像传统网格那样依赖复杂的拓扑结构,也能渲染出高质量的结果。3D高斯优化过程中有一个关键优点,恰恰也是它最难被Diffusion等生成式模型继承的部分,那就是空间密度控制(density control)。
在3D高斯优化过程中,优化算法会不断进行密集化(densification)和稀疏化(pruning)。简单理解就是:
如果某个局部没有拟合好,就往那里“补充”更多的高斯球;如果某些高斯球贡献不大,就把它们删除掉。
这套机制非常有效,因为现实中的3D物体本身就不是均匀复杂的。边缘、薄结构、纹理剧烈变化的区域,需要更多的表示能力;而大块平整、变化不大的区域,其实没必要堆积太多高斯球。
问题在于,这种“补点和删点”的流程本质上是离散的、启发式的、不可微分的。
这个过程对单个物体的拟合很有用,但不可微分的特性对于一个做前馈式生成、从图像直接预测3D高斯的模型来说,很难直接搬过来套用。于是,许多现有方法退而求其次,选择了固定结构:
- 有的方法把高斯球绑定在体素网格上(GaussianCube);
- 有的方法给每个体素分配固定数量的高斯球(TRELLIS.1);
- 有的方法给每个2D图像的像素预测固定数量的高斯球(LGM)。
这样做当然更容易训练,但代价也很明显:失去了3D高斯最珍贵的灵活性。
DeG的核心思路,就是把“高斯球中心在哪”这件事,从一个固定的回归问题,改写成一个从概率密度中采样的问题。
换句话说,模型不再死板地输出一组固定坐标,而是先学习一个3D空间里的概率密度分布。这个分布可以理解为:
哪些位置更值得放置高斯球,哪些位置没那么重要——即实现了某种“空间智能密度控制”。
在推理时,模型从这个分布中直接采样出一批高斯球,组成最终的3D高斯资产。
这样一来,整个表示立刻获得了两个非常实用的能力。
第一个能力,是任意数量采样。
因为模型学到的是“分布”,而不是“固定长度输出”,所以在推理时可以按实际需求采样不同数量的高斯球。想做移动端、实时预览或低成本传输,可以少采一些;想做高保真渲染、离线展示或更复杂场景,可以多采一些。
也就是说,这不是“每种分辨率都要重新训练一个模型”,而是同一个模型、同一个表示,根据预算直接调整采样数量。
考虑到3D高斯的渲染成本并不低,灵活的高斯球数量对实际部署非常重要。因为很多应用要的不是绝对最强画质,而是“在当前设备和当前时延预算下,拿到最合适的3D资产”。

第二个能力,是非均匀采样。
DeG并不是在整个空间里平均撒点,而是会在模型训练时根据渲染重构损失,把更多采样预算放到真正复杂的区域。比如薄的结构、尖锐边缘、局部几何变化大、纹理更敏感的区域,都可以自然得到更高密度;而在平坦、规则、变化较小的区域,则可以少放一些高斯球。

这意味着,模型开始真正具备一种“哪里重要就把容量放哪里”的能力。
而这,也是本文最有意思的算法问题所在:
这个空间上的智能密度控制策略,到底怎么学?
很多人第一次看到这里会觉得,既然最后有渲染损失,那直接反向传播不就行了?
但真正的难点在于,高斯球的位置是采样出来的。采样本身不是一个普通的连续映射,因此渲染误差没法像常规神经网络那样,顺滑地一路反传回“空间密度分布”。
也就是说,模型虽然知道渲染结果哪里错了,却不容易知道:
到底应该提高哪些区域被采样到的概率,又该降低哪些区域的概率。
这篇论文的关键突破,就是给这个问题构造了一个可训练的梯度信号。作者把它称为渲染损失贡献梯度(render loss contribution gradient),本质上是一种强化学习策略,可以理解为一种面向高斯采样的policy gradient。
这个想法其实很直观。
假设当前我们从密度分布中采样出了一批高斯球。现在,如果把其中某一个高斯球去掉,重新看渲染损失会发生什么?
如果去掉它之后,渲染结果明显变差,说明这个高斯球很重要,它确实帮模型把这个区域表示好了。那么系统就应该提升类似位置今后被采样到的概率。
反过来,如果去掉它几乎没影响,甚至让结果更好,那说明这类位置的采样价值不高,概率就不该那么大。
换成更口语化的说法,这个梯度在回答的问题其实就是:
“这一个被采到的高斯球,到底值不值得被采到?”
这就是一种非常典型的策略学习视角。采样位置像是在“做决策”,渲染误差则提供“奖惩信号”。对降低误差有帮助的位置,就奖励;帮助不大的位置,就少奖励甚至惩罚。
从数学上看,这套思路和policy gradient是一致的。作者把它进一步写成了difference reward的形式,也就是比较“有这个高斯球”和“没有这个高斯球”时,渲染损失到底相差多少。这个差值,正好刻画了该高斯球的边际贡献。

更重要的是,这里不只是一个直觉上说得通的解释,而是有明确的正确性依据。论文直接从“渲染损失期望值”出发,计算了它对密度分布参数的梯度大小,最后得到的就是这里真正用来优化的梯度信号,也就是渲染损失贡献梯度。换句话说,作者并不是凭经验设计了一个看起来合理的训练技巧,而是在用梯度下降的方式,直接优化高斯该如何分布、如何采样;这和传统高斯里基于人工规则的剪枝、密化,是结果类似、但思路完全不同的一条路。
如果严格去计算每个高斯球的leave-one-out贡献,代价会非常高,因为看起来像是要把每个高斯球都单独删除,再重新渲染一遍。
接下来的核心挑战在于:虽然这个目标定义得非常明确,但如何高效地计算它?针对 L1 渲染损失,作者提出了一种既精准又高效的计算方案。
具体而言,对于 L1 渲染项,渲染器在常规渲染流程中已经获取了几个关键数值,只需进行少量额外运算,就能得到所需的贡献值,无需反复删除高斯体再重新渲染。详细的伪代码可参考论文原文。
这样一来,原本依赖规则的密集化/稀疏化流程,被彻底改写为一个可微分、可学习、可批量训练的空间密度优化过程。这项研究首次将 3D 高斯的密度控制,真正实现为端到端优化问题。
在传统高斯方法中,密度控制主要依赖人工规则驱动,例如何时分裂、何时删除点、阈值如何设定、哪些区域需要“加密”或“剪枝”,本质上都是启发式设计。DeG 的不同之处在于,它不再依赖这些手工定义的规则来调度高斯数量,而是让“哪里该多采样、哪里该少采样”直接由渲染误差反向决定。
从应用视角来看,这套方法的价值更为直观。
首先,它让 3D 资产真正具备了按预算伸缩的能力。以往许多方法一旦生成完成,输出规模基本固定。想要更轻量,通常只能后处理压缩;想要更高质量,往往需要重新训练、重新拟合,或从一开始就承担沉重的表示成本。而在 DeG 中,模型输出的是一个“可采样的密度”,这意味着同一对象可以自然获得不同规模的高斯版本。对移动端、实时交互、在线预览等场景,可以采样更少、更轻的版本;对影视级展示、数字藏品、离线精修等任务,则可直接提高采样预算,得到更密、更细致的版本。
其次,它让 3D 表示真正开始理解局部复杂度。许多固定结构方法的问题不在于不能生成高斯,而在于不知道哪些地方更值得投入预算,结果往往是简单区域堆得太多,复杂区域反而不足。DeG 的非均匀采样恰好相反,将容量更集中地放在细节、边界、薄结构和高误差区域上。这在低预算场景中尤为重要,因为当总高斯数量有限时,“如何分配”比“总量多少”更关键。论文实验也显示,这种空间智能密度控制带来的收益,在少数量高斯的区间尤其明显。换句话说,预算越紧张,这种方法越能体现价值。
再进一步看,这种能力对许多场景都至关重要:
- 对游戏和 XR 来说,它意味着同一生成模型更容易适配不同设备等级和实时性能约束。
- 对 3D 内容平台来说,它意味着资产可以更自然地提供多种质量档位,而非为每个档位单独制作,实现类似 LoD 的效果。
- 对 AIGC 工作流来说,它意味着生成系统不只是“给出一个结果”,而是提供更可调、更可部署的表示。
- 对机器人仿真、数字孪生和交互式 AI 环境来说,它则意味着有限资源可以优先用于真正影响几何感知和渲染质量的部分。
论文还展示了非常有代表性的结果。作为一种单图到 3D 的生成框架,DeG 在重建和生成方面都取得了强劲表现。在相近的高斯预算下,它相比 TRELLIS、UniLat3D 等代表性方法,获得了更好的视觉质量;而如果只看“达到相近视觉质量需要多少高斯”,DeG 能显著减少所需高斯数量。论文中提到,在某些场景下,它达到与 TRELLIS 相当的视觉质量时,所需高斯数量不到后者的一半。


从更长的技术脉络来看,这篇工作提示了一个重要方向:3D 生成模型能否不只负责“生成出来”,还负责决定“资源该如何分配”?这看似是一个底层问题,但它直接决定了 3D AIGC 能否从“实验室效果”走向“实际可用”。真实世界的部署从来不是无限预算的,真正有价值的模型,不仅要会生成,还要知道在预算有限的情况下,什么最值得保留。
DeG 的意义,就在于将这种“保留什么、强调什么、稀疏什么”的能力,第一次以可学习、可优化的方式交给模型自己去决定。它让 3D 表示不再是固定长度、固定密度的静态输出,而变成一种能按需调整密度、成本、质量的表达。
如果再往前想一步,这篇工作还会促使我们重新思考一个基础问题:一个物体的高模和低模,到底应该被看作两个不同的东西,还是同一个物体在不同资源约束下的两种状态?在传统流程中,我们通常把它们当成两份不同资产,所以建模、简化、LOD 制作和部署被拆成了多条链路。但 DeG 提示了一种更自然的理解:物体本身没有变,变化的只是我们愿意为它分配多少表示能力和渲染预算。
如果这个视角成立,那么未来的 3D 生成模型学到的就不只是“长什么样”,还包括“在什么条件下,该以什么密度、什么成本被呈现出来”。那时,高模、低模、移动端版本,也许都不再是彼此割裂的几份资产,而会变成同一个对象在不同场景下的连续状态。
从这个意义上说,DeG 虽然研究的是 3D 高斯,但它真正有意思的地方,或许在于提醒我们:未来的 3D 内容不一定是一份静态答案,而更可能是一种会随着设备、任务和预算不断调整的“活表示”。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35739

