谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧

记忆机制是大型模型处理复杂任务的核心能力之一。在对话、自动化工作流等场景中，模型需要依赖记忆来维持长期上下文。这一需求在3D重建领域同样关键，尤其是在处理大范围场景或长序列视频时，跨帧信息的持续传递与整合至关重要。

然而，现有的前馈式3D重建模型通常受限于较短的上下文窗口，难以有效建模长序列中的依赖关系。尽管近期出现的几何基础模型（如DUSt3R、MonST3R、VGGT）能够从大规模数据中学习复杂的几何先验，实现更稳健的前馈推理，但它们仍面临一个根本性限制：当前架构难以将密集重建有效扩展到数千帧的长序列。

这一限制主要源于两方面壁垒：
* 架构壁垒：学习复杂几何先验所需的双向注意力机制，其计算复杂度呈二次方增长，导致其只能应用于短上下文窗口。
* 数据壁垒：现有模型主要在短序列（几十到一百多帧）上训练，缺乏处理长距离依赖（数千至数万帧）的能力。因此，即使采用推理时的启发式方法（如FastVGGT）来缓解内存压力，模型仍难以在更大规模的数据集上泛化。

针对上述挑战，谷歌DeepMind与加州大学伯克利分校的研究团队提出了LoGeR（长时上下文几何重建）。这是一种新颖的架构，旨在无需后期优化的情况下，将密集3D重建扩展到极长的视频序列。

LoGeR的核心思路是将长视频流分割为连续的块（chunk）进行顺序处理。为了在块内实现高保真度的重建，它利用了强大的双向注意力先验。而为了确保跨块边界的一致性，研究团队设计了一个基于学习的混合记忆模块。该模块包含两个互补组件：
1. 参数化记忆（测试时训练，TTT）：一个可训练的快速权重集，用于锚定全局坐标系，防止尺度漂移，实现长距离但有损的信息压缩与传递。
2. 非参数化记忆（滑动窗口注意力，SWA）：一种注意力机制，专注于相邻块之间的帧，实现短距离但无损的高精度特征对齐。

这种混合记忆架构使得LoGeR能够仅在128帧的序列上进行训练，而在推理时泛化到处理数千帧的序列。

谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧

论文标题：LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
论文链接：https://arxiv.org/pdf/2603.03269
项目主页：https://loger-project.github.io/

在标准基准测试和重新设计的长序列VBR数据集（包含最多19000帧）上的评估表明，LoGeR显著超越了先前的前馈方法。例如，在KITTI数据集上，它将绝对轨迹误差（ATE）降低了超过74%，并能在前所未有的时间跨度上实现全局一致且稳健的重建。

谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧
在大规模真实场景及VBR长序列上的定性结果。LoGeR能在数千帧的序列中准确保持大尺度结构，并实现稳定的回环闭合。

方法概览

为了将前馈式密集重建扩展到分钟级视频，必须解决全局注意力计算复杂度高和长序列训练数据稀缺的问题。LoGeR采用端到端的分块处理流程来严格控制计算成本，并确保局部推理处于短上下文训练数据的分布内。其架构设计目标在于同时实现：
1. 强大的局部双向推理能力，以保持密集几何细节。
2. 无损的短程信息传递，以确保相邻块边界的精确对齐。
3. 一个线性复杂度、固定大小的记忆机制，用于在数千帧范围内传播全局信息。

研究团队通过顺序处理分块的视频流来实现这一目标，其核心流程如图1和图2所示。

谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧

跨块信息传递通过两种互补机制实现：
* 分块测试时训练（TTT）实现长时有损压缩：在网络中插入TTT层，维护一组跨块更新的快速权重。在推理时，这些权重会根据当前块的信息进行更新，并用于调节网络对后续块的处理，从而压缩和传递粗略的几何与尺度等全局信息。
* 滑动窗口注意力（SWA）实现短时无损传递：在网络部分深度稀疏地插入SWA层，使其仅关注前一个块与当前块中的帧。这建立了一个无损通道，直接传播相邻块间的高保真特征，确保细粒度几何一致性。

TTT与SWA相互补充：TTT提供可扩展的长距离记忆，而SWA保障了局部边界的精确对齐。

此外，为了应对长序列处理中可能累积的预测误差，研究团队还提出了LoGeR变体，它在原始预测基础上增加了一个纯前馈的对齐步骤，以确保所有预测与一致的全局坐标系对齐。

最后，为了克服“数据壁垒”并稳定训练递归TTT层，研究团队构建了包含更多大规模场景数据的数据集，并采用了渐进式课程学习策略。训练从简单的短序列开始，逐步增加序列长度和分块数量，引导模型从依赖局部SWA转向利用全局TTT状态进行推理。

谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧