谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

记忆机制是大型模型处理复杂任务的核心能力之一。在对话、自动化工作流等场景中,模型需要依赖记忆来维持长期上下文。这一需求在3D重建领域同样关键,尤其是在处理大范围场景或长序列视频时,跨帧信息的持续传递与整合至关重要。

然而,现有的前馈式3D重建模型通常受限于较短的上下文窗口,难以有效建模长序列中的依赖关系。尽管近期出现的几何基础模型(如DUSt3R、MonST3R、VGGT)能够从大规模数据中学习复杂的几何先验,实现更稳健的前馈推理,但它们仍面临一个根本性限制:当前架构难以将密集重建有效扩展到数千帧的长序列。

这一限制主要源于两方面壁垒:
* 架构壁垒:学习复杂几何先验所需的双向注意力机制,其计算复杂度呈二次方增长,导致其只能应用于短上下文窗口。
* 数据壁垒:现有模型主要在短序列(几十到一百多帧)上训练,缺乏处理长距离依赖(数千至数万帧)的能力。因此,即使采用推理时的启发式方法(如FastVGGT)来缓解内存压力,模型仍难以在更大规模的数据集上泛化。

针对上述挑战,谷歌DeepMind与加州大学伯克利分校的研究团队提出了LoGeR(长时上下文几何重建)。这是一种新颖的架构,旨在无需后期优化的情况下,将密集3D重建扩展到极长的视频序列。

LoGeR的核心思路是将长视频流分割为连续的块(chunk)进行顺序处理。为了在块内实现高保真度的重建,它利用了强大的双向注意力先验。而为了确保跨块边界的一致性,研究团队设计了一个基于学习的混合记忆模块。该模块包含两个互补组件:
1. 参数化记忆(测试时训练,TTT):一个可训练的快速权重集,用于锚定全局坐标系,防止尺度漂移,实现长距离但有损的信息压缩与传递。
2. 非参数化记忆(滑动窗口注意力,SWA):一种注意力机制,专注于相邻块之间的帧,实现短距离但无损的高精度特征对齐。

这种混合记忆架构使得LoGeR能够仅在128帧的序列上进行训练,而在推理时泛化到处理数千帧的序列。

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

  • 论文标题:LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
  • 论文链接:https://arxiv.org/pdf/2603.03269
  • 项目主页:https://loger-project.github.io/

在标准基准测试和重新设计的长序列VBR数据集(包含最多19000帧)上的评估表明,LoGeR显著超越了先前的前馈方法。例如,在KITTI数据集上,它将绝对轨迹误差(ATE)降低了超过74%,并能在前所未有的时间跨度上实现全局一致且稳健的重建。

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧
在大规模真实场景及VBR长序列上的定性结果。LoGeR能在数千帧的序列中准确保持大尺度结构,并实现稳定的回环闭合。

方法概览

为了将前馈式密集重建扩展到分钟级视频,必须解决全局注意力计算复杂度高和长序列训练数据稀缺的问题。LoGeR采用端到端的分块处理流程来严格控制计算成本,并确保局部推理处于短上下文训练数据的分布内。其架构设计目标在于同时实现:
1. 强大的局部双向推理能力,以保持密集几何细节。
2. 无损的短程信息传递,以确保相邻块边界的精确对齐。
3. 一个线性复杂度、固定大小的记忆机制,用于在数千帧范围内传播全局信息。

研究团队通过顺序处理分块的视频流来实现这一目标,其核心流程如图1和图2所示。

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

跨块信息传递通过两种互补机制实现:
* 分块测试时训练(TTT)实现长时有损压缩:在网络中插入TTT层,维护一组跨块更新的快速权重。在推理时,这些权重会根据当前块的信息进行更新,并用于调节网络对后续块的处理,从而压缩和传递粗略的几何与尺度等全局信息。
* 滑动窗口注意力(SWA)实现短时无损传递:在网络部分深度稀疏地插入SWA层,使其仅关注前一个块与当前块中的帧。这建立了一个无损通道,直接传播相邻块间的高保真特征,确保细粒度几何一致性。

TTT与SWA相互补充:TTT提供可扩展的长距离记忆,而SWA保障了局部边界的精确对齐。

此外,为了应对长序列处理中可能累积的预测误差,研究团队还提出了LoGeR变体,它在原始预测基础上增加了一个纯前馈的对齐步骤,以确保所有预测与一致的全局坐标系对齐。

最后,为了克服“数据壁垒”并稳定训练递归TTT层,研究团队构建了包含更多大规模场景数据的数据集,并采用了渐进式课程学习策略。训练从简单的短序列开始,逐步增加序列长度和分块数量,引导模型从依赖局部SWA转向利用全局TTT状态进行推理。

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

实验结果

定量评估显示,LoGeR及其基线方法Pi3-Chunk在KITTI基准测试上显著优于现有的前馈方法。

值得注意的是,LoGeR的平均性能甚至超越了当前最强的基于优化的方法VGGT-Long,优势达32.5%。这一优势在开环场景中尤为明显。在这些场景中,LoGeR无需依赖回环检测,便能有效抑制长序列中累积的漂移误差。

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

在 VBR 基准测试中,LoGeR 同样展现出稳定的性能提升。定量与定性评估结果分别如图4和图5所示。得益于 TTT 模块的设计,LoGeR 能够自然地锚定全局尺度,从而在长序列中保持优于基线方法的全局一致性。

可视化结果表明,在长达 2 万帧的超长序列中,LoGeR 仍能维持稳定的全局尺度,而基线方法则出现了明显的尺度漂移问题。

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

短序列评测

研究团队进一步在 TTT3R 的实验设置基础上,将评测范围扩展至较短的视频序列(最长约 1000 帧)。首先,在序列长度为 50 到 500 帧的 7-Scenes 数据集上评估了 3D 点云重建效果。

LoGeR 与多种具有亚二次复杂度的学习方法进行了对比,包括显式状态方法 Point3R、隐式状态空间模型 CUT3R、TTT3R、StreamVGGT,以及双向注意力基线模型 VGGT 与 π^3。在 7-Scenes 数据集上的结果如图 6 和图 7 所示:

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

在 ScanNetV2 和 TUM-Dynamics 数据集上的相机位姿估计结果,分别展示于图 8 和图 9 中:

谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧

综合来看,无论是在 3D 重建质量还是位姿估计精度方面,LoGeR 及其相关基线模型均显著优于现有方法。

更多实验细节与结果请参阅原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/25792

(0)
上一篇 2026年3月15日 下午12:21
下一篇 2026年3月15日 下午12:30

相关推荐

  • Vision Agents:开源框架革新实时视频AI,构建多模态智能体的终极解决方案

    如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统,就会知道其技术栈有多么复杂。 视频需要一个 SDK。 语音需要另一个。 目标检测需要另一个。 大语言模型(LLM)还需要一个。 之后,你仍需将所有组件集成起来,处理延迟问题,并设法让整个系统实时运行。 Vision Agents 改变了这一切。 这是一个开源框架,旨在帮助开发者构建能…

    2025年12月17日
    30200
  • Agent Infra:驾驭不确定性,开启智能体工程化落地新纪元

    毋庸置疑,2025年堪称「Agent元年」。 从年初到年末,Agent的热度持续攀升——从Manus到近期的豆包手机,Agent已成为全行业关注的焦点。回顾这一年,也是Agent从技术萌芽走向工程化落地的关键一年。 为此,量子位邀请到两位行业专家——Dify开源生态负责人郑立与腾讯云云原生产品副总经理于广游,共同探讨Agent落地过程中的挑战、机遇与未来。核…

    2025年12月23日
    35800
  • 重放驱动验证:突破CPU-GPU芯粒架构流片前验证瓶颈的创新方法

    关键词: 重放驱动验证、CPU-GPU 架构、ODIN 芯粒、片上网络、流片前验证 CPU 与 GPU 技术的融合是支撑现代人工智能和图形学工作负载的核心技术,该融合架构兼具面向控制的处理能力与大规模并行计算能力。 随着芯片设计向芯粒(Chiplet)架构演进,紧耦合 CPU-GPU 子系统的流片前验证面临诸多严峻挑战:* 验证框架搭建复杂度高* 设计规模庞…

    2026年4月1日
    12000
  • OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

    OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42% 随着多模态大模型向“全模态”演进,Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而,这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token,其中大量是冗余信息。注意力可视化实验揭示,在多模态…

    2026年3月11日
    18600
  • AGI的物理边界:计算本质与硬件极限下的AI未来

    大模型的通用性与泛化能力正日益增强。 尽管一些新模型(例如在某些专业任务和智能水平上表现已相当出色的模型)不断涌现,但它们距离我们通常所理解的通用人工智能(AGI)依然十分遥远。 然而,这恰恰说明业界对AGI的实现仍抱有巨大的热情与信心,或许下一款突破性的大模型就能初步触及AGI的构想。 不过,卡耐基梅隆大学教授、AI2研究所科学家Tim Dettmers近…

    2025年12月21日
    28900