CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

在城市街景场景中，Proxy-GS 在保持细粒度视觉细节的同时，实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量，从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化，其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。

Proxy-GS：面向结构化3D高斯溅射的统一遮挡先验

论文链接：https://arxiv.org/abs/2509.24421
项目主页：https://visionary-laboratory.github.io/Proxy-GS/

上海交通大学钟志航团队联合上海人工智能实验室、西北工业大学、四川大学等高校在 CVPR 2026 上提出 Proxy-GS（Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting）。该方法面向基于 MLP 的结构化 3D 高斯溅射，利用轻量级代理网格将遮挡关系转化为可用的可见性信号：在推理阶段快速生成遮挡深度图并剔除被遮挡的锚点以加速渲染；在训练阶段引导新增锚点沿代理表面生长，减少遮挡区的无效生长，并通过偏移使从锚点解码出的高斯更好地贴合代理几何。在遮挡密集的城市街景（如 MatrixCity Streets）中，Proxy-GS 在保持甚至提升画质的同时，实现了 2.5 倍以上 的渲染加速。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

背景与动机

为什么结构化 3DGS 会越跑越慢？

3D 高斯溅射在高质量新视角合成上已取得显著进展，但原始 3DGS 往往产生大量冗余高斯，且忽视场景几何结构。为此，Scaffold-GS、Octree-GS 等基于 MLP 的结构化方法将锚点置于体素或八叉树节点上，使用 MLP 根据视角动态解码高斯属性，在提升细节与鲁棒性的同时，也带来了可观的计算开销。在大规模城市场景中，锚点与高斯数量急剧增加，解码与渲染成本成为瓶颈。

现有工作通过剪枝或细节层次技术来减少冗余，但剪枝易损伤画质，LOD 主要针对“远处简化”，对被遮挡区域的无效计算关注不足。真实场景——尤其是城市街道、多房间室内——遮挡密集，若锚点选择不显式考虑遮挡，大量计算会浪费在被遮挡的锚点上。论文通过可视化发现：当前帧实际参与解码的锚点与“直觉上需要”的锚点之间存在明显错位，大量锚点落在严重遮挡区域，既增加解码负担又不贡献最终画面。因此，引入遮挡感知的锚点筛选有望显著降低计算量。

此外，消费级 GPU 的硬件光栅化能力很强，若能用其快速得到遮挡深度，再与现有视锥剔除等策略结合，即可在几乎不增加时延的前提下实现遮挡剔除。Proxy-GS 即围绕“轻量代理网格 + 硬件光栅化 + 训练/推理一致使用遮挡先验”这一思路展开。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

图 1：总览：冗余锚点、剔除效果，以及 PSNR/FPS 对比。

如上图所示，Proxy-GS 在现有基于 MLP 的 LOD 框架（如 Octree-GS）之上，通过遮挡感知的锚点选择，既减少了解码量，又改善了画质，在遮挡丰富的场景中可实现约 3 倍 的渲染加速。

方法概览：代理网格在训练与推理中的双重角色

方法核心是构建一个轻量代理网格，使其能在 1000×1000 分辨率下于 1ms 内 得到遮挡深度图，并服务于两件事：推理时的锚点/高斯剔除与训练时的代理引导增密。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

图 2：Proxy-GS 框架：推理期遮挡剔除 + 训练期代理引导增密。

代理网格的获取：对于室外大场景，常用 COLMAP 等方法获取稠密点云；对于纹理较弱、SfM 易失败的室内场景，文中采用 MapAnything 等大模型，以 COLMAP 位姿与 RGB 图像为输入得到稠密点云并转为网格。对网格进行表面简化，仅保留较粗的几何结构以表达遮挡关系，无需精细的几何细节。

推理阶段：对代理网格进行仅深度的硬件光栅化，得到当前视角下的深度图；将锚点投影到像平面，与深度图进行深度比较，落在代理网格之后的锚点视为被遮挡并予以剔除。该过程与原有的视锥剔除等在单一 CUDA 内核中融合，避免 GPU-CPU-GPU 间的数据往返。深度图常驻 GPU，并施加一个小的安全裕度 γ 以兼顾数值与几何误差。为加速处理，还对网格进行细粒度分块并采用层次化深度剔除、Early-Z 等技术，使高分辨率深度图的生成耗时控制在约 1ms 内。

训练阶段：若仅在推理时做遮挡剔除而训练时仍对所有锚点一视同仁，会导致“训练时见过的锚点-高斯绑定”与“测试时被剔除的锚点”不一致，从而造成画质下降。因此 Proxy-GS 在训练时同样使用代理深度图进行遮挡剔除，确保训练与推理的可见性一致。此外，原有的增密策略在梯度大的地方生长新锚点，容易在代理网格后方长出无效锚点。文中提出代理引导增密：在渲染误差持续较大的图像块上，取块内像素对应的代理深度，反投影到 3D 空间得到新锚点位置，使新锚点落在代理表面附近；同时利用代理网格控制每个网格单元内的锚点数量，避免 3D 空间中的过密重复。这样，增密过程更贴合表面几何，遮挡区的无效生长减少，实现了画质与速度的更优平衡。

推理耗时从哪里节省下来？

论文在 MatrixCity 数据集上对比了 Proxy-GS 与 Octree-GS 各推理环节的耗时占比。代理网格的深度渲染仅需约 1ms，几乎可忽略不计；锚点筛选因待处理锚点变少而更快；主要节省来自渲染阶段：更少的锚点意味着更少的 MLP 解码和更少的高斯光栅化，从而带来显著的 FPS 提升。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

图 3：各推理环节时间占比：Proxy-GS 的深度渲染约 1ms，主要节省来自更少的解码与渲染。

实验结果

数据集与指标：在大型城市场景 MatrixCity，以及不同遮挡程度与尺度的真实场景（Small City 街景、Berlin、CUHK-LOWER 航拍、Zip-NeRF 室内）上进行评估。指标包括 PSNR、SSIM、LPIPS 和 FPS。

MatrixCity 街道：按官方划分将 Small City 的 8477 张街景分为 5 个区块，在区块 1&2、区块 3&4、区块 5 上汇报平均指标。Proxy-GS 在各区块上均在画质（PSNR/SSIM/LPIPS）和 FPS 上优于或持平 3DGS、Scaffold-GS、Hierarchical-GS、Octree-GS 等基线。尤其在区块 5，Octree-GS 约为 48 FPS，Proxy-GS 达到 151 FPS，同时 PSNR 更高。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

表 1：MatrixCity Street：Proxy-GS 与 3DGS / Scaffold-GS / Hierarchical-GS / Octree-GS 的定量对比。

跨数据集泛化：在 Small City（遮挡较强）、Berlin、CUHK-LOWER（遮挡相对较弱、尺度较小）上，Proxy-GS 均取得最佳或次佳的画质与速度。遮挡越强的街景（如 Small City），加速与画质收益越明显；遮挡较弱或场景较小时仍有稳定收益，且未带来额外负担。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

表 2：跨数据集：不同遮挡强度与尺度的场景。

定性对比
在建筑物窗户、纹理、路面结构等细节上，Proxy-GS 相比基线方法能更好地保持清晰度与结构一致性。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验
Figure 4. 定性对比结果（窗户、纹理、路面等细节）。

训练与推理策略消融实验
在 Block 5 场景上对比了四种策略设置：
* ID1 (Baseline)：原始 Octree-GS 流程。
* ID2：仅在推理时使用代理网格进行遮挡剔除，训练流程不变。渲染速度（FPS）提升超过 3 倍，但画质明显下降。原因是训练时锚点与高斯的绑定关系，与推理时的可见性不一致。
* ID3：训练与推理阶段均使用代理网格进行遮挡剔除（保持遮挡一致性）。画质超过 Baseline，FPS 较 ID2 略有下降，原因是更多锚点在训练中生长后才被剔除。
* ID4：在 ID3 的基础上，加入代理网格引导的致密化策略。画质与速度达到了最佳平衡。

实验表明，仅推理时进行遮挡剔除是不够的。训练阶段也需要与遮挡先验保持一致，并配合代理网格引导的致密化，才能实现画质与速度的双重提升。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验
Table 3. 不同训练与推理策略的消融实验结果（Block 5）。

对代理网格质量的敏感性分析
通过两类消融实验衡量方法对代理网格精度的敏感度：
1. 网格分辨率：代理网格从较细（约 108 MB）到较粗（约 824 KB），渲染质量的峰值信噪比（PSNR）变化不大。城市场景以建筑立面、道路等大平面为主，较粗的代理网格仍能保留主要的遮挡结构，因此分辨率影响有限。
2. 顶点噪声：对代理网格顶点施加随机扰动后，遮挡边界被破坏，PSNR 明显下降；噪声越大，画面中出现的伪影结构越多，画面越模糊。

结论是：代理网格可以粗糙，但几何结构不能混乱——只要遮挡结构基本正确，分辨率的降低影响有限；而顶点噪声会破坏遮挡边界，对画质影响更大。此外，由于锚点与解码后的高斯之间存在固有偏移，在小扰动（如 5% 以内）下方法仍具有一定鲁棒性。这种鲁棒性部分源于在剔除锚点后，高斯本身会学习相对于锚点的偏移量，这也是 Proxy-GS 需要训练阶段的原因——每个不完美的代理网格都能通过训练，获得最适合它的高斯分布。

下图进一步展示了不同分辨率与噪声设置下的代理网格可视化，以及对应的 PSNR 变化曲线。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验
Figure 5. 不同分辨率与顶点噪声下的代理网格可视化：分辨率降低时整体遮挡结构基本保持；噪声增大时遮挡边界被破坏，出现伪影结构。

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验
Figure 6. PSNR 随代理网格分辨率和噪声变化的曲线：分辨率影响有限，而噪声增大会导致 PSNR 明显下降。

与其他加速方案的兼容性
Proxy-GS 主要通过减少参与渲染的锚点与高斯数量来加速，因此可与现有的 3DGS 渲染加速技术（如 FlashGS、硬件光栅化 3DGS 等）叠加使用。在 Block 1 场景上的实验表明，在默认 3DGS 渲染器基础上替换为 FlashGS 或硬件 3DGS 渲染器，可进一步提速；使用硬件 3DGS 时 FPS 提升尤为明显，画质略有折衷。这说明该方法与现有渲染管线兼容，便于实际部署。

结论

Proxy-GS 为基于 MLP 的结构化 3D 高斯溅射提供了统一的遮挡先验：在推理端，通过轻量代理网格与硬件光栅化在约 1ms 内获取遮挡深度并剔除被遮挡锚点；在训练端，通过遮挡一致的渲染与代理网格引导的致密化，使锚点生长更贴合表面、减少无效计算。在遮挡丰富的场景中，Proxy-GS 在画质与速度上均优于现有方法，实现了约 2.5 倍 的渲染加速，提升了 MLP-based 3DGS 在 VR/AR 等应用中的实用性，为高效 3D 场景表示建立了新的标杆。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/26218

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

Proxy-GS：面向结构化3D高斯溅射的统一遮挡先验

背景与动机

为什么结构化 3DGS 会越跑越慢？

方法概览：代理网格在训练与推理中的双重角色

推理耗时从哪里节省下来？

实验结果

结论

相关推荐

AI Agent部署的95%失败率真相：Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

HarmonyOS架构深度解析：从分布式能力到实战迁移，解锁万物智联开发新范式

OpenMemory：开源AI长期记忆系统，为聊天机器人装上“人工大脑”

大模型流式输出打字机效果的前后端实现

GraphRAG深度解析：融合Neo4j与LangChain，构建下一代知识增强型LLM系统