CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

在城市街景场景中,Proxy-GS 在保持细粒度视觉细节的同时,实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量,从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化,其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。

Proxy-GS:面向结构化3D高斯溅射的统一遮挡先验

  • 论文链接:https://arxiv.org/abs/2509.24421
  • 项目主页:https://visionary-laboratory.github.io/Proxy-GS/

上海交通大学钟志航团队联合上海人工智能实验室、西北工业大学、四川大学等高校在 CVPR 2026 上提出 Proxy-GSProxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting)。该方法面向基于 MLP 的结构化 3D 高斯溅射,利用轻量级代理网格将遮挡关系转化为可用的可见性信号:在推理阶段快速生成遮挡深度图并剔除被遮挡的锚点以加速渲染;在训练阶段引导新增锚点沿代理表面生长,减少遮挡区的无效生长,并通过偏移使从锚点解码出的高斯更好地贴合代理几何。在遮挡密集的城市街景(如 MatrixCity Streets)中,Proxy-GS 在保持甚至提升画质的同时,实现了 2.5 倍以上 的渲染加速。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

背景与动机

为什么结构化 3DGS 会越跑越慢?

3D 高斯溅射在高质量新视角合成上已取得显著进展,但原始 3DGS 往往产生大量冗余高斯,且忽视场景几何结构。为此,Scaffold-GS、Octree-GS 等基于 MLP 的结构化方法将锚点置于体素或八叉树节点上,使用 MLP 根据视角动态解码高斯属性,在提升细节与鲁棒性的同时,也带来了可观的计算开销。在大规模城市场景中,锚点与高斯数量急剧增加,解码与渲染成本成为瓶颈。

现有工作通过剪枝或细节层次技术来减少冗余,但剪枝易损伤画质,LOD 主要针对“远处简化”,对被遮挡区域的无效计算关注不足。真实场景——尤其是城市街道、多房间室内——遮挡密集,若锚点选择不显式考虑遮挡,大量计算会浪费在被遮挡的锚点上。论文通过可视化发现:当前帧实际参与解码的锚点与“直觉上需要”的锚点之间存在明显错位,大量锚点落在严重遮挡区域,既增加解码负担又不贡献最终画面。因此,引入遮挡感知的锚点筛选有望显著降低计算量。

此外,消费级 GPU 的硬件光栅化能力很强,若能用其快速得到遮挡深度,再与现有视锥剔除等策略结合,即可在几乎不增加时延的前提下实现遮挡剔除。Proxy-GS 即围绕“轻量代理网格 + 硬件光栅化 + 训练/推理一致使用遮挡先验”这一思路展开。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

图 1:总览:冗余锚点、剔除效果,以及 PSNR/FPS 对比。

如上图所示,Proxy-GS 在现有基于 MLP 的 LOD 框架(如 Octree-GS)之上,通过遮挡感知的锚点选择,既减少了解码量,又改善了画质,在遮挡丰富的场景中可实现约 3 倍 的渲染加速。

方法概览:代理网格在训练与推理中的双重角色

方法核心是构建一个轻量代理网格,使其能在 1000×1000 分辨率下于 1ms 内 得到遮挡深度图,并服务于两件事:推理时的锚点/高斯剔除训练时的代理引导增密

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

图 2:Proxy-GS 框架:推理期遮挡剔除 + 训练期代理引导增密。

代理网格的获取:对于室外大场景,常用 COLMAP 等方法获取稠密点云;对于纹理较弱、SfM 易失败的室内场景,文中采用 MapAnything 等大模型,以 COLMAP 位姿与 RGB 图像为输入得到稠密点云并转为网格。对网格进行表面简化,仅保留较粗的几何结构以表达遮挡关系,无需精细的几何细节。

推理阶段:对代理网格进行仅深度的硬件光栅化,得到当前视角下的深度图;将锚点投影到像平面,与深度图进行深度比较,落在代理网格之后的锚点视为被遮挡并予以剔除。该过程与原有的视锥剔除等在单一 CUDA 内核中融合,避免 GPU-CPU-GPU 间的数据往返。深度图常驻 GPU,并施加一个小的安全裕度 γ 以兼顾数值与几何误差。为加速处理,还对网格进行细粒度分块并采用层次化深度剔除、Early-Z 等技术,使高分辨率深度图的生成耗时控制在约 1ms 内。

训练阶段:若仅在推理时做遮挡剔除而训练时仍对所有锚点一视同仁,会导致“训练时见过的锚点-高斯绑定”与“测试时被剔除的锚点”不一致,从而造成画质下降。因此 Proxy-GS 在训练时同样使用代理深度图进行遮挡剔除,确保训练与推理的可见性一致。此外,原有的增密策略在梯度大的地方生长新锚点,容易在代理网格后方长出无效锚点。文中提出代理引导增密:在渲染误差持续较大的图像块上,取块内像素对应的代理深度,反投影到 3D 空间得到新锚点位置,使新锚点落在代理表面附近;同时利用代理网格控制每个网格单元内的锚点数量,避免 3D 空间中的过密重复。这样,增密过程更贴合表面几何,遮挡区的无效生长减少,实现了画质与速度的更优平衡。

推理耗时从哪里节省下来?

论文在 MatrixCity 数据集上对比了 Proxy-GS 与 Octree-GS 各推理环节的耗时占比。代理网格的深度渲染仅需约 1ms,几乎可忽略不计;锚点筛选因待处理锚点变少而更快;主要节省来自渲染阶段:更少的锚点意味着更少的 MLP 解码和更少的高斯光栅化,从而带来显著的 FPS 提升。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

图 3:各推理环节时间占比:Proxy-GS 的深度渲染约 1ms,主要节省来自更少的解码与渲染。

实验结果

数据集与指标:在大型城市场景 MatrixCity,以及不同遮挡程度与尺度的真实场景(Small City 街景、Berlin、CUHK-LOWER 航拍、Zip-NeRF 室内)上进行评估。指标包括 PSNR、SSIM、LPIPS 和 FPS。

MatrixCity 街道:按官方划分将 Small City 的 8477 张街景分为 5 个区块,在区块 1&2、区块 3&4、区块 5 上汇报平均指标。Proxy-GS 在各区块上均在画质(PSNR/SSIM/LPIPS)和 FPS 上优于或持平 3DGS、Scaffold-GS、Hierarchical-GS、Octree-GS 等基线。尤其在区块 5,Octree-GS 约为 48 FPS,Proxy-GS 达到 151 FPS,同时 PSNR 更高。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

表 1:MatrixCity Street:Proxy-GS 与 3DGS / Scaffold-GS / Hierarchical-GS / Octree-GS 的定量对比。

跨数据集泛化:在 Small City(遮挡较强)、Berlin、CUHK-LOWER(遮挡相对较弱、尺度较小)上,Proxy-GS 均取得最佳或次佳的画质与速度。遮挡越强的街景(如 Small City),加速与画质收益越明显;遮挡较弱或场景较小时仍有稳定收益,且未带来额外负担。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

表 2:跨数据集:不同遮挡强度与尺度的场景。

定性对比
在建筑物窗户、纹理、路面结构等细节上,Proxy-GS 相比基线方法能更好地保持清晰度与结构一致性。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验
Figure 4. 定性对比结果(窗户、纹理、路面等细节)。

训练与推理策略消融实验
在 Block 5 场景上对比了四种策略设置:
* ID1 (Baseline):原始 Octree-GS 流程。
* ID2:仅在推理时使用代理网格进行遮挡剔除,训练流程不变。渲染速度(FPS)提升超过 3 倍,但画质明显下降。原因是训练时锚点与高斯的绑定关系,与推理时的可见性不一致。
* ID3:训练与推理阶段均使用代理网格进行遮挡剔除(保持遮挡一致性)。画质超过 Baseline,FPS 较 ID2 略有下降,原因是更多锚点在训练中生长后才被剔除。
* ID4:在 ID3 的基础上,加入代理网格引导的致密化策略。画质与速度达到了最佳平衡。

实验表明,仅推理时进行遮挡剔除是不够的。训练阶段也需要与遮挡先验保持一致,并配合代理网格引导的致密化,才能实现画质与速度的双重提升。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验
Table 3. 不同训练与推理策略的消融实验结果(Block 5)。

对代理网格质量的敏感性分析
通过两类消融实验衡量方法对代理网格精度的敏感度:
1. 网格分辨率:代理网格从较细(约 108 MB)到较粗(约 824 KB),渲染质量的峰值信噪比(PSNR)变化不大。城市场景以建筑立面、道路等大平面为主,较粗的代理网格仍能保留主要的遮挡结构,因此分辨率影响有限。
2. 顶点噪声:对代理网格顶点施加随机扰动后,遮挡边界被破坏,PSNR 明显下降;噪声越大,画面中出现的伪影结构越多,画面越模糊。

结论是:代理网格可以粗糙,但几何结构不能混乱——只要遮挡结构基本正确,分辨率的降低影响有限;而顶点噪声会破坏遮挡边界,对画质影响更大。此外,由于锚点与解码后的高斯之间存在固有偏移,在小扰动(如 5% 以内)下方法仍具有一定鲁棒性。这种鲁棒性部分源于在剔除锚点后,高斯本身会学习相对于锚点的偏移量,这也是 Proxy-GS 需要训练阶段的原因——每个不完美的代理网格都能通过训练,获得最适合它的高斯分布。

下图进一步展示了不同分辨率与噪声设置下的代理网格可视化,以及对应的 PSNR 变化曲线。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验
Figure 5. 不同分辨率与顶点噪声下的代理网格可视化:分辨率降低时整体遮挡结构基本保持;噪声增大时遮挡边界被破坏,出现伪影结构。

CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验
Figure 6. PSNR 随代理网格分辨率和噪声变化的曲线:分辨率影响有限,而噪声增大会导致 PSNR 明显下降。

与其他加速方案的兼容性
Proxy-GS 主要通过减少参与渲染的锚点与高斯数量来加速,因此可与现有的 3DGS 渲染加速技术(如 FlashGS、硬件光栅化 3DGS 等)叠加使用。在 Block 1 场景上的实验表明,在默认 3DGS 渲染器基础上替换为 FlashGS 或硬件 3DGS 渲染器,可进一步提速;使用硬件 3DGS 时 FPS 提升尤为明显,画质略有折衷。这说明该方法与现有渲染管线兼容,便于实际部署。

结论

Proxy-GS 为基于 MLP 的结构化 3D 高斯溅射提供了统一的遮挡先验:在推理端,通过轻量代理网格与硬件光栅化在约 1ms 内获取遮挡深度并剔除被遮挡锚点;在训练端,通过遮挡一致的渲染与代理网格引导的致密化,使锚点生长更贴合表面、减少无效计算。在遮挡丰富的场景中,Proxy-GS 在画质与速度上均优于现有方法,实现了约 2.5 倍 的渲染加速,提升了 MLP-based 3DGS 在 VR/AR 等应用中的实用性,为高效 3D 场景表示建立了新的标杆。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26218

(0)
上一篇 2026年3月18日 上午10:59
下一篇 2026年3月18日 上午11:00

相关推荐

  • Agent Skill框架赋能小语言模型:12B模型技能选择准确率逼近90%,算力成本降低50%

    关键词:Agent Skill 框架、小语言模型、上下文工程、工业应用、GPU 效率 近年来,以 GitHub Copilot、LangChain 等为代表的 Agent Skill 框架已成为大语言模型应用的重要范式。该框架通过精心设计的“静态技能库”,让模型在推理过程中渐进式地获取相关技能上下文,从而有效减少幻觉、提升工具使用的准确性。 然而,这一范式高…

    2026年2月25日
    38600
  • 无监督强化学习的边界探索:清华研究揭示内在奖励的繁荣与陷阱

    强化学习的范式迁移:从监督走向无监督 强化学习正持续拓展大模型的能力边界。从 OpenAI o3 到 DeepSeek-R1、Gemini 3,顶尖模型正通过大规模 RLVR(可验证奖励强化学习)不断刷新推理任务的上限。然而,纯监督式训练的局限性日益凸显:人工标注成本呈指数级增长,在专业领域获取可靠标注愈发困难。当模型能力逼近甚至超越人类专家时,可靠的评估者…

    2026年3月21日
    21800
  • JTok:大模型扩展新维度!上海交大提出token-indexed参数,不增算力也能提升性能

    大模型扩展的困境 大模型的发展长期遵循一条铁律:依据Scaling Law堆叠参数和数据,模型性能便会遵循负幂律持续提升。然而,这条道路正变得日益昂贵,因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。 在传统的稠密模型中,扩展逻辑简单直接:加宽网络或加深层数。随之而来的硬伤是:参数规模一旦暴涨,计算量和显存需求便会线性飙升。在高质…

    2026年3月3日
    27700
  • 智算新纪元:2026超万卡集群技术演进与产业协同全景解析

    自ChatGPT发布以来,全球科技产业迎来大模型创新浪潮,数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型,各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间,大模型参数量从万亿级向十万亿级跨越,多模态、超长序列、实时交互等场景的爆发式增长,推动智算基础设施迎来代际升级,超万卡集群已从“军备竞赛标配”转变…

    大模型工程 2026年2月23日
    72300
  • DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

    DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…

    2026年1月13日
    42900