
在城市街景场景中,Proxy-GS 在保持细粒度视觉细节的同时,实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量,从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化,其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。
Proxy-GS:面向结构化3D高斯溅射的统一遮挡先验
- 论文链接:https://arxiv.org/abs/2509.24421
- 项目主页:https://visionary-laboratory.github.io/Proxy-GS/
上海交通大学钟志航团队联合上海人工智能实验室、西北工业大学、四川大学等高校在 CVPR 2026 上提出 Proxy-GS(Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting)。该方法面向基于 MLP 的结构化 3D 高斯溅射,利用轻量级代理网格将遮挡关系转化为可用的可见性信号:在推理阶段快速生成遮挡深度图并剔除被遮挡的锚点以加速渲染;在训练阶段引导新增锚点沿代理表面生长,减少遮挡区的无效生长,并通过偏移使从锚点解码出的高斯更好地贴合代理几何。在遮挡密集的城市街景(如 MatrixCity Streets)中,Proxy-GS 在保持甚至提升画质的同时,实现了 2.5 倍以上 的渲染加速。

背景与动机
为什么结构化 3DGS 会越跑越慢?
3D 高斯溅射在高质量新视角合成上已取得显著进展,但原始 3DGS 往往产生大量冗余高斯,且忽视场景几何结构。为此,Scaffold-GS、Octree-GS 等基于 MLP 的结构化方法将锚点置于体素或八叉树节点上,使用 MLP 根据视角动态解码高斯属性,在提升细节与鲁棒性的同时,也带来了可观的计算开销。在大规模城市场景中,锚点与高斯数量急剧增加,解码与渲染成本成为瓶颈。
现有工作通过剪枝或细节层次技术来减少冗余,但剪枝易损伤画质,LOD 主要针对“远处简化”,对被遮挡区域的无效计算关注不足。真实场景——尤其是城市街道、多房间室内——遮挡密集,若锚点选择不显式考虑遮挡,大量计算会浪费在被遮挡的锚点上。论文通过可视化发现:当前帧实际参与解码的锚点与“直觉上需要”的锚点之间存在明显错位,大量锚点落在严重遮挡区域,既增加解码负担又不贡献最终画面。因此,引入遮挡感知的锚点筛选有望显著降低计算量。
此外,消费级 GPU 的硬件光栅化能力很强,若能用其快速得到遮挡深度,再与现有视锥剔除等策略结合,即可在几乎不增加时延的前提下实现遮挡剔除。Proxy-GS 即围绕“轻量代理网格 + 硬件光栅化 + 训练/推理一致使用遮挡先验”这一思路展开。

图 1:总览:冗余锚点、剔除效果,以及 PSNR/FPS 对比。
如上图所示,Proxy-GS 在现有基于 MLP 的 LOD 框架(如 Octree-GS)之上,通过遮挡感知的锚点选择,既减少了解码量,又改善了画质,在遮挡丰富的场景中可实现约 3 倍 的渲染加速。
方法概览:代理网格在训练与推理中的双重角色
方法核心是构建一个轻量代理网格,使其能在 1000×1000 分辨率下于 1ms 内 得到遮挡深度图,并服务于两件事:推理时的锚点/高斯剔除与训练时的代理引导增密。

图 2:Proxy-GS 框架:推理期遮挡剔除 + 训练期代理引导增密。
代理网格的获取:对于室外大场景,常用 COLMAP 等方法获取稠密点云;对于纹理较弱、SfM 易失败的室内场景,文中采用 MapAnything 等大模型,以 COLMAP 位姿与 RGB 图像为输入得到稠密点云并转为网格。对网格进行表面简化,仅保留较粗的几何结构以表达遮挡关系,无需精细的几何细节。
推理阶段:对代理网格进行仅深度的硬件光栅化,得到当前视角下的深度图;将锚点投影到像平面,与深度图进行深度比较,落在代理网格之后的锚点视为被遮挡并予以剔除。该过程与原有的视锥剔除等在单一 CUDA 内核中融合,避免 GPU-CPU-GPU 间的数据往返。深度图常驻 GPU,并施加一个小的安全裕度 γ 以兼顾数值与几何误差。为加速处理,还对网格进行细粒度分块并采用层次化深度剔除、Early-Z 等技术,使高分辨率深度图的生成耗时控制在约 1ms 内。
训练阶段:若仅在推理时做遮挡剔除而训练时仍对所有锚点一视同仁,会导致“训练时见过的锚点-高斯绑定”与“测试时被剔除的锚点”不一致,从而造成画质下降。因此 Proxy-GS 在训练时同样使用代理深度图进行遮挡剔除,确保训练与推理的可见性一致。此外,原有的增密策略在梯度大的地方生长新锚点,容易在代理网格后方长出无效锚点。文中提出代理引导增密:在渲染误差持续较大的图像块上,取块内像素对应的代理深度,反投影到 3D 空间得到新锚点位置,使新锚点落在代理表面附近;同时利用代理网格控制每个网格单元内的锚点数量,避免 3D 空间中的过密重复。这样,增密过程更贴合表面几何,遮挡区的无效生长减少,实现了画质与速度的更优平衡。
推理耗时从哪里节省下来?
论文在 MatrixCity 数据集上对比了 Proxy-GS 与 Octree-GS 各推理环节的耗时占比。代理网格的深度渲染仅需约 1ms,几乎可忽略不计;锚点筛选因待处理锚点变少而更快;主要节省来自渲染阶段:更少的锚点意味着更少的 MLP 解码和更少的高斯光栅化,从而带来显著的 FPS 提升。

图 3:各推理环节时间占比:Proxy-GS 的深度渲染约 1ms,主要节省来自更少的解码与渲染。
实验结果
数据集与指标:在大型城市场景 MatrixCity,以及不同遮挡程度与尺度的真实场景(Small City 街景、Berlin、CUHK-LOWER 航拍、Zip-NeRF 室内)上进行评估。指标包括 PSNR、SSIM、LPIPS 和 FPS。
MatrixCity 街道:按官方划分将 Small City 的 8477 张街景分为 5 个区块,在区块 1&2、区块 3&4、区块 5 上汇报平均指标。Proxy-GS 在各区块上均在画质(PSNR/SSIM/LPIPS)和 FPS 上优于或持平 3DGS、Scaffold-GS、Hierarchical-GS、Octree-GS 等基线。尤其在区块 5,Octree-GS 约为 48 FPS,Proxy-GS 达到 151 FPS,同时 PSNR 更高。

表 1:MatrixCity Street:Proxy-GS 与 3DGS / Scaffold-GS / Hierarchical-GS / Octree-GS 的定量对比。
跨数据集泛化:在 Small City(遮挡较强)、Berlin、CUHK-LOWER(遮挡相对较弱、尺度较小)上,Proxy-GS 均取得最佳或次佳的画质与速度。遮挡越强的街景(如 Small City),加速与画质收益越明显;遮挡较弱或场景较小时仍有稳定收益,且未带来额外负担。

表 2:跨数据集:不同遮挡强度与尺度的场景。
定性对比
在建筑物窗户、纹理、路面结构等细节上,Proxy-GS 相比基线方法能更好地保持清晰度与结构一致性。

Figure 4. 定性对比结果(窗户、纹理、路面等细节)。
训练与推理策略消融实验
在 Block 5 场景上对比了四种策略设置:
* ID1 (Baseline):原始 Octree-GS 流程。
* ID2:仅在推理时使用代理网格进行遮挡剔除,训练流程不变。渲染速度(FPS)提升超过 3 倍,但画质明显下降。原因是训练时锚点与高斯的绑定关系,与推理时的可见性不一致。
* ID3:训练与推理阶段均使用代理网格进行遮挡剔除(保持遮挡一致性)。画质超过 Baseline,FPS 较 ID2 略有下降,原因是更多锚点在训练中生长后才被剔除。
* ID4:在 ID3 的基础上,加入代理网格引导的致密化策略。画质与速度达到了最佳平衡。
实验表明,仅推理时进行遮挡剔除是不够的。训练阶段也需要与遮挡先验保持一致,并配合代理网格引导的致密化,才能实现画质与速度的双重提升。

Table 3. 不同训练与推理策略的消融实验结果(Block 5)。
对代理网格质量的敏感性分析
通过两类消融实验衡量方法对代理网格精度的敏感度:
1. 网格分辨率:代理网格从较细(约 108 MB)到较粗(约 824 KB),渲染质量的峰值信噪比(PSNR)变化不大。城市场景以建筑立面、道路等大平面为主,较粗的代理网格仍能保留主要的遮挡结构,因此分辨率影响有限。
2. 顶点噪声:对代理网格顶点施加随机扰动后,遮挡边界被破坏,PSNR 明显下降;噪声越大,画面中出现的伪影结构越多,画面越模糊。
结论是:代理网格可以粗糙,但几何结构不能混乱——只要遮挡结构基本正确,分辨率的降低影响有限;而顶点噪声会破坏遮挡边界,对画质影响更大。此外,由于锚点与解码后的高斯之间存在固有偏移,在小扰动(如 5% 以内)下方法仍具有一定鲁棒性。这种鲁棒性部分源于在剔除锚点后,高斯本身会学习相对于锚点的偏移量,这也是 Proxy-GS 需要训练阶段的原因——每个不完美的代理网格都能通过训练,获得最适合它的高斯分布。
下图进一步展示了不同分辨率与噪声设置下的代理网格可视化,以及对应的 PSNR 变化曲线。

Figure 5. 不同分辨率与顶点噪声下的代理网格可视化:分辨率降低时整体遮挡结构基本保持;噪声增大时遮挡边界被破坏,出现伪影结构。

Figure 6. PSNR 随代理网格分辨率和噪声变化的曲线:分辨率影响有限,而噪声增大会导致 PSNR 明显下降。
与其他加速方案的兼容性
Proxy-GS 主要通过减少参与渲染的锚点与高斯数量来加速,因此可与现有的 3DGS 渲染加速技术(如 FlashGS、硬件光栅化 3DGS 等)叠加使用。在 Block 1 场景上的实验表明,在默认 3DGS 渲染器基础上替换为 FlashGS 或硬件 3DGS 渲染器,可进一步提速;使用硬件 3DGS 时 FPS 提升尤为明显,画质略有折衷。这说明该方法与现有渲染管线兼容,便于实际部署。
结论
Proxy-GS 为基于 MLP 的结构化 3D 高斯溅射提供了统一的遮挡先验:在推理端,通过轻量代理网格与硬件光栅化在约 1ms 内获取遮挡深度并剔除被遮挡锚点;在训练端,通过遮挡一致的渲染与代理网格引导的致密化,使锚点生长更贴合表面、减少无效计算。在遮挡丰富的场景中,Proxy-GS 在画质与速度上均优于现有方法,实现了约 2.5 倍 的渲染加速,提升了 MLP-based 3DGS 在 VR/AR 等应用中的实用性,为高效 3D 场景表示建立了新的标杆。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26218


