记忆机制是大型模型处理复杂任务的核心能力之一。在对话、自动化工作流等场景中,模型需要依赖记忆来维持长期上下文。这一需求在3D重建领域同样关键,尤其是在处理大范围场景或长序列视频时,跨帧信息的持续传递与整合至关重要。
然而,现有的前馈式3D重建模型通常受限于较短的上下文窗口,难以有效建模长序列中的依赖关系。尽管近期出现的几何基础模型(如DUSt3R、MonST3R、VGGT)能够从大规模数据中学习复杂的几何先验,实现更稳健的前馈推理,但它们仍面临一个根本性限制:当前架构难以将密集重建有效扩展到数千帧的长序列。
这一限制主要源于两方面壁垒:
* 架构壁垒:学习复杂几何先验所需的双向注意力机制,其计算复杂度呈二次方增长,导致其只能应用于短上下文窗口。
* 数据壁垒:现有模型主要在短序列(几十到一百多帧)上训练,缺乏处理长距离依赖(数千至数万帧)的能力。因此,即使采用推理时的启发式方法(如FastVGGT)来缓解内存压力,模型仍难以在更大规模的数据集上泛化。
针对上述挑战,谷歌DeepMind与加州大学伯克利分校的研究团队提出了LoGeR(长时上下文几何重建)。这是一种新颖的架构,旨在无需后期优化的情况下,将密集3D重建扩展到极长的视频序列。
LoGeR的核心思路是将长视频流分割为连续的块(chunk)进行顺序处理。为了在块内实现高保真度的重建,它利用了强大的双向注意力先验。而为了确保跨块边界的一致性,研究团队设计了一个基于学习的混合记忆模块。该模块包含两个互补组件:
1. 参数化记忆(测试时训练,TTT):一个可训练的快速权重集,用于锚定全局坐标系,防止尺度漂移,实现长距离但有损的信息压缩与传递。
2. 非参数化记忆(滑动窗口注意力,SWA):一种注意力机制,专注于相邻块之间的帧,实现短距离但无损的高精度特征对齐。
这种混合记忆架构使得LoGeR能够仅在128帧的序列上进行训练,而在推理时泛化到处理数千帧的序列。

- 论文标题:LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
- 论文链接:https://arxiv.org/pdf/2603.03269
- 项目主页:https://loger-project.github.io/
在标准基准测试和重新设计的长序列VBR数据集(包含最多19000帧)上的评估表明,LoGeR显著超越了先前的前馈方法。例如,在KITTI数据集上,它将绝对轨迹误差(ATE)降低了超过74%,并能在前所未有的时间跨度上实现全局一致且稳健的重建。

在大规模真实场景及VBR长序列上的定性结果。LoGeR能在数千帧的序列中准确保持大尺度结构,并实现稳定的回环闭合。
方法概览
为了将前馈式密集重建扩展到分钟级视频,必须解决全局注意力计算复杂度高和长序列训练数据稀缺的问题。LoGeR采用端到端的分块处理流程来严格控制计算成本,并确保局部推理处于短上下文训练数据的分布内。其架构设计目标在于同时实现:
1. 强大的局部双向推理能力,以保持密集几何细节。
2. 无损的短程信息传递,以确保相邻块边界的精确对齐。
3. 一个线性复杂度、固定大小的记忆机制,用于在数千帧范围内传播全局信息。
研究团队通过顺序处理分块的视频流来实现这一目标,其核心流程如图1和图2所示。


跨块信息传递通过两种互补机制实现:
* 分块测试时训练(TTT)实现长时有损压缩:在网络中插入TTT层,维护一组跨块更新的快速权重。在推理时,这些权重会根据当前块的信息进行更新,并用于调节网络对后续块的处理,从而压缩和传递粗略的几何与尺度等全局信息。
* 滑动窗口注意力(SWA)实现短时无损传递:在网络部分深度稀疏地插入SWA层,使其仅关注前一个块与当前块中的帧。这建立了一个无损通道,直接传播相邻块间的高保真特征,确保细粒度几何一致性。
TTT与SWA相互补充:TTT提供可扩展的长距离记忆,而SWA保障了局部边界的精确对齐。
此外,为了应对长序列处理中可能累积的预测误差,研究团队还提出了LoGeR变体,它在原始预测基础上增加了一个纯前馈的对齐步骤,以确保所有预测与一致的全局坐标系对齐。
最后,为了克服“数据壁垒”并稳定训练递归TTT层,研究团队构建了包含更多大规模场景数据的数据集,并采用了渐进式课程学习策略。训练从简单的短序列开始,逐步增加序列长度和分块数量,引导模型从依赖局部SWA转向利用全局TTT状态进行推理。

实验结果
定量评估显示,LoGeR及其基线方法Pi3-Chunk在KITTI基准测试上显著优于现有的前馈方法。
值得注意的是,LoGeR的平均性能甚至超越了当前最强的基于优化的方法VGGT-Long,优势达32.5%。这一优势在开环场景中尤为明显。在这些场景中,LoGeR无需依赖回环检测,便能有效抑制长序列中累积的漂移误差。

在 VBR 基准测试中,LoGeR 同样展现出稳定的性能提升。定量与定性评估结果分别如图4和图5所示。得益于 TTT 模块的设计,LoGeR 能够自然地锚定全局尺度,从而在长序列中保持优于基线方法的全局一致性。
可视化结果表明,在长达 2 万帧的超长序列中,LoGeR 仍能维持稳定的全局尺度,而基线方法则出现了明显的尺度漂移问题。


短序列评测
研究团队进一步在 TTT3R 的实验设置基础上,将评测范围扩展至较短的视频序列(最长约 1000 帧)。首先,在序列长度为 50 到 500 帧的 7-Scenes 数据集上评估了 3D 点云重建效果。
LoGeR 与多种具有亚二次复杂度的学习方法进行了对比,包括显式状态方法 Point3R、隐式状态空间模型 CUT3R、TTT3R、StreamVGGT,以及双向注意力基线模型 VGGT 与 π^3。在 7-Scenes 数据集上的结果如图 6 和图 7 所示:

在 ScanNetV2 和 TUM-Dynamics 数据集上的相机位姿估计结果,分别展示于图 8 和图 9 中:

综合来看,无论是在 3D 重建质量还是位姿估计精度方面,LoGeR 及其相关基线模型均显著优于现有方法。
更多实验细节与结果请参阅原论文。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25792


