突破3DGS内存墙:单卡RTX 4090+CPU内存实现亿级高斯点城市重建

想用3D高斯泼溅 (3DGS) 重建一座城市?

过去,这往往意味着一套昂贵的GPU集群。如今,研究人员给出了另一种答案:一张RTX 4090,加上足够大的CPU内存,也可以完成城市级3D重建

来自纽约大学的研究团队在ASPLOS 2026上提出了名为 CLM (CPU-offloaded Large-scale 3DGS training) 的系统。该工作通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存中,使单张消费级显卡也能训练上亿规模的高斯点模型,为大场景神经渲染显著降低了硬件门槛。

3DGS的规模应用瓶颈

3D高斯泼溅 (3DGS) 因其高质量渲染效果和极高的渲染速度,已成为神经渲染领域的重要技术路线。然而,当研究人员尝试将其用于城市街区、大型室内空间等复杂场景时,问题很快显现出来——GPU显存成为最直接、也最难解决的瓶颈

一个高精度的3DGS模型通常包含数千万乃至上亿个高斯点。每个高斯点包含位置、形状、颜色和不透明度等数十个可学习参数,训练过程中还需同时保存梯度和优化器状态。研究人员指出,即便是RTX 4090这样的24GB显存显卡,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景。

在此之前,扩展规模的办法并不理想:要么使用多张GPU并行训练,成本高昂 ;要么通过压缩、裁剪或分区训练等方式减少高斯数量,但往往以牺牲重建质量 为代价。

显存中绝大多数高斯闲置

CLM的出发点来自一个对训练过程的系统级观察。

研究人员发现,在3DGS训练的每一次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分 。在大规模场景下,单帧图像通常只会访问不到1%的高斯点,其余绝大多数参数在该步训练中并未被使用。

基于这一现象,他们提出了CLM的设计思路,即不再将所有高斯参数常驻显存,而是在需要时按视角动态加载

以系统协同解决显存瓶颈

CLM并不是简单地把数据从GPU搬到CPU,而是一套围绕CPU–GPU协同设计的系统方案。研究人员将其总结为三项关键机制。

一、属性分割:只把“关键属性”留在GPU

在CLM中,每个高斯点的59个可学习参数被分为两类。

其中,用于视锥剔除和可见性判断的“关键属性” ——包括位置、旋转和缩放 (共10个浮点数) ——被永久保存在GPU显存中。这部分数据仅占单个高斯内存占用的不到20%,足以判断该高斯是否会在当前视角中被使用。

其余约80%的“非关键属性” ,如球谐系数、不透明度及其优化器状态,则被卸载到容量更大的CPU内存中,仅在需要时才被加载到GPU。

二、预渲染视锥剔除与选择性加载

与传统3DGS将视锥剔除逻辑融合进渲染内核不同,CLM在渲染前显式计算当前视角中可见的高斯点索引。

系统首先利用GPU中常驻的关键属性完成快速视锥裁剪,然后只从CPU内存中加载这些可见高斯点的完整参数 ,再交由GPU执行渲染与反向传播。这一做法显著减少了GPU对不可见高斯的无效计算和内存占用。

这一转变,将问题从“买更大的GPU显存”变成了“充分利用已有的CPU内存”

值得注意的是,CLM实现中包含的“预渲染视锥剔除”技术本身也是一个独立的优化 。传统3DGS将视锥剔除与渲染内核融合,导致GPU线程对大量不在视锥内的高斯点进行无效计算。CLM改为在渲染前显式计算出在视锥内的高斯点索引,仅将这些点输入渲染内核,从而减少了GPU计算量和内存占用。这一技术同样可以应用于无卸载的GPU-only训练,并带来性能提升。

三、如何让CPU帮忙又不拖后腿?

CPU参与训练最容易引发的问题,是频繁的数据传输拖慢整体速度。

CLM通过多层系统设计缓解这一风险:

1.微批次流水线 :将一个训练批次拆分为多个微批次 (通常每个微批次对应一张图像) ,通过双缓冲和异步执行,将微批次i+1的参数加载与微批次i的GPU反向传播重叠,将微批次i的梯度存储与微批次i+1的GPU前向传播重叠。这种设计使得激活内存占用与批次大小无关,并有效隐藏了通信延迟。

2. 缓存机制 :利用连续视角之间的空间局部性,缓存重复使用的高斯点,避免反复从CPU加载相同数据。

3. 智能调度 :研究团队甚至将渲染顺序建模为一个“旅行商问题” (TSP) ,通过算法寻找高斯点重用率最高的视角排列,从而最大化缓存命中、最小化数据搬运。

通过这一系列设计,使CPU不再只能作为辅助性的“慢速仓库”,而成为可以与GPU高效协同的计算资源。

实测结果:单卡RTX 4090,规模放大6.7倍,质量同步提升

效果如何?论文中的实验数据给出了有力证明:

规模突破 :CLM技术在几乎任何场景中都能显著增大模型尺寸。

在“MatrixCity BigCity”这个面积达25.3平方公里的城市级航拍数据集上,传统GPU-only方法在RTX 4090上最多只能训练1530万 个高斯点 (否则显存溢出) 。而CLM利用CPU内存,成功训练了1.022亿 个高斯点,模型规模扩大了6.7倍 ,比RTX 4090显卡上仅使用卸载功能时大2.2倍

突破3DGS内存墙:单卡RTX 4090+CPU内存实现亿级高斯点城市重建

质量提升 :更多的参数带来了更精确的重建。1.022亿高斯点模型的渲染PSNR (峰值信噪比) 达到25.15dB ,显著优于1530万点模型的23.93dB。

突破3DGS内存墙:单卡RTX 4090+CPU内存实现亿级高斯点城市重建

速度可控 :尽管有通信开销,但凭借精心设计的重叠计算,CLM在RTX 4090上的训练吞吐量仍能达到增强型基线吞吐量的55%至90% 。在计算较慢的RTX 2080 Ti上,由于GPU计算时间更能掩盖通信延迟,吞吐量甚至能达到基线的86%至97%。

突破3DGS内存墙:单卡RTX 4090+CPU内存实现亿级高斯点城市重建

通用性强 :该方案与具体后端渲染引擎 (gsplat,inria-3dgs等) 无关,并可扩展至其他splatting算法微调方式 (2DGS、mesh-splatting)

为3D大规模重建“降本增效”

从研究定位来看,CLM是一项直接面向真实部署瓶颈的系统工程研究,其核心贡献在于首次系统性地将CPU内存和计算资源,纳入了3DGS训练的资源分配体系中 ,在不依赖多GPU集群的条件下,为学术界和工业界进行超大规模场景重建提供了一种高性价比的可行路径。

从产业角度,随着数字孪生、大规模地图重建等应用需求不断增长,对高效、低成本3D重建工具有着迫切需要,能在现实硬件条件下稳定扩展规模对相关工作的开展非常有利。CLM通过软硬件协同的方式,对既有计算资源进行重新组织,展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向。

目前,该项目的代码已在GitHub上开源,并提供了从快速上手到极端压力测试的完整教程。

作者简介: 赵和旭,纽约大学科朗研究所博士生,致力于机器学习系统研究,2023毕业于清华大学姚班;闵熙雯,纽约大学科朗研究所硕士生,2023年毕业于上海交通大学(其余作者信息详见论文)。
项目导师:李金阳教授和Aurojit Panda教授
论文链接:https://arxiv.org/abs/2511.04951
项目主页:https://tarzanzhao.github.io/CLM-GS
代码仓库:https://github.com/nyu-systems/CLM-GS


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14893

(0)
上一篇 2025年12月23日 下午12:13
下一篇 2025年12月23日 下午1:03

相关推荐

  • 强化学习赋能文本到3D生成:从算法突破到能力边界探索

    在人工智能生成内容领域,文本到3D生成技术正成为继大语言模型和文生图之后的下一个前沿阵地。这一技术旨在将自然语言描述转化为具有复杂几何结构、纹理细节和物理合理性的三维模型,其应用潜力覆盖数字孪生、游戏开发、工业设计、虚拟现实等多个关键领域。然而,与相对成熟的文本到2D图像生成相比,文本到3D生成面临着更为严峻的技术挑战:三维数据本身具有更高的维度复杂性、更强…

    2025年12月19日
    10000
  • OpenAI稀疏电路研究:为破解大模型黑箱提供可解释性新路径

    在人工智能领域,大模型的“黑箱”问题一直是制约其可信应用的核心障碍。OpenAI最新发布的研究论文《Circuit Sparsity in Neural Networks》通过训练结构更简单、连接更稀疏的神经网络,为构建既强大又透明的模型提供了全新方向。这一突破性进展不仅揭示了神经网络内部的可解释性机制,更可能成为未来AI系统安全部署的关键技术基础。 研究团…

    2025年11月14日
    7200
  • 摩尔线程LiteGS斩获SIGGRAPH Asia银奖:3D高斯溅射技术突破60秒高质量重建极限

    在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级学术会议上,摩尔线程凭借其自主研发的3D高斯溅射(3DGS)基础库LiteGS,在3DGS重建挑战赛中荣获银奖。这一成就不仅展示了摩尔线程在算法创新与软硬件协同优化方面的深厚实力,也标志着该公司在新一代图形渲染技术领域获得了学术界的高度认可。 3D高斯溅射作为2023年提出的革命性三维场景表…

    2025年12月17日
    16500
  • Pixeltable:以声明式表格重构多模态AI流水线,告别“胶水代码”时代

    在当今多模态AI应用开发中,工程师们常常陷入一个技术困境:为了构建一个完整的处理流水线,需要将数据库、文件存储系统、向量数据库、各类API服务以及任务编排框架通过大量“胶水代码”强行拼接在一起。这种模式不仅开发效率低下,维护成本高昂,更严重的是,数据在不同组件间的流转往往伴随着格式转换的损耗与一致性的风险。而Pixeltable的出现,正是为了解决这一核心痛…

    2025年11月3日
    8100
  • 深度解析Depth Anything 3:单Transformer统一3D视觉任务,字节跳动如何重塑几何感知新范式

    在计算机视觉领域,3D重建与几何感知一直是核心挑战之一。传统方法往往需要针对不同任务设计专用模型,如单目深度估计、多视角重建、相机姿态估计等,这不仅增加了开发复杂度,也限制了模型的泛化能力与数据利用效率。近日,字节跳动Seed团队的Depth Anything 3(DA3)研究成果,以单一Transformer架构统一了多种3D视觉任务,在视觉几何基准上取得…

    2025年11月18日
    7800