蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模

今年1月，蚂蚁灵波开源了包括高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA与LingBot-VA，以及世界模型LingBot-World在内的四款大模型。这些模型分别负责从图像中估算深度、对环境进行模拟理解，以及控制机器人的决策与动作，覆盖了感知、理解与行动环节。

然而，一个关键环节仍然缺失：如何将连续的感知数据实时构建成稳定的三维空间模型，为后续模块提供可靠依据。

近期，蚂蚁灵波开源了LingBot-Map，一个基于几何上下文Transformer（Geometric Context Transformer, GCT）的纯自回归流式3D重建基础模型。该模型能在近乎恒定的内存约束下，实现超万帧长视频的实时三维重建，处理速度约20 FPS，并在多个基准测试中超越了现有流式方法。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
LingBot-Map 与最先进的流式重建方法比较

给定连续视频流，LingBot-Map可同步输出精确的相机位姿估计与高质量点云。其能力在多种场景下得到验证：
– 真实世界航拍：保持稳定的定位能力与高精度3D重建效果。

– 多房间长序列：面对环境剧变与大幅视角变换，模型表现出极强的鲁棒性。

– 生成视频建模：与主流生成视频高度兼容，实现稳定的位姿锁定。

– 长序列户外场景：在快速运动与频繁视角切换下维持可靠的位姿精度。

– 建筑环绕场景：强化回环重建能力，确保全局一致性。

此次开源内容包括技术报告、核心代码和模型权重，已同步上线Hugging Face和ModelScope平台。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
– 论文链接：https://arxiv.org/abs/2604.14141
– Hugging Face：https://huggingface.co/robbyant/lingbot-map
– ModelScope：https://www.modelscope.cn/models/Robbyant/lingbot-map
– GitHub：https://github.com/Robbyant/lingbot-map

至此，从单帧深度估计，到纯自回归的流式3D重建，再到场景理解与控制输出，一条更为完整的技术链路得以贯通。

机器的空间记忆为何困难？

人类能在行走过程中持续建立空间记忆，将连续的感官信息整合成动态地图。然而，让机器实时将二维视频流还原为准确、可实时更新的三维模型，是具身智能和自动驾驶领域的长期难题。核心挑战在于：视频流是无限的，历史信息不能丢失，当前帧需即时处理，而内存资源有限。

现有方案大多存在局限：
– 传统离线方法（如运动恢复结构，SfM）：需收集所有帧后进行全局优化，精度高但无法实时运行。
– 流式重建方法：旨在逐帧更新三维理解，但面临两大瓶颈：
1. 灾难性遗忘：神经网络易覆盖旧信息，导致长序列重建前后矛盾、全局漂移。
2. 内存膨胀：为对抗遗忘而保存全部历史帧，会导致内存消耗随帧数增长而爆炸，难以应对万帧以上长视频。

LingBot-Map为解决这一两难困境提供了一条新路径。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
LingBot-Map 流程示意图。该框架处理当前视图，通过DINO骨干网络提取特征，经帧注意力层与几何上下文注意力（GCA）层细化。GCA模块聚合来自锚点上下文、局部位姿参考窗口和轨迹记忆上下文的信息。最终，特定任务头部预测相机姿态和深度图，实现对长序列的鲁棒、内存高效的流式3D重建。

如何解决“记忆”问题？

让机器实时理解三维世界，本质上是解决记忆问题：记什么、如何压缩、怎样快速调取。LingBot-Map的核心在于其几何上下文注意力（Geometric Context Attention, GCA）机制。

GCA的设计灵感源于机器人领域的经典算法SLAM。传统SLAM依赖人工编码的几何约束来维护三类空间记忆：锁定坐标原点的参考帧、捕捉近邻细节的局部窗口、记录全局轨迹的稀疏地图。LingBot-Map则将这类空间规律内化到Transformer的注意力机制中，利用因果注意力确保模型仅依据过去和当前信息进行推理，符合实时处理逻辑。

GCA在视频流处理中协同维护三类记忆：
1. 锚点（Anchor）：记忆初始坐标系，为整个重建提供稳定基准，防止长期运行中的坐标漂移。
2. 位姿参考窗口（Pose-reference window）：捕捉当前位置附近的局部几何细节，保证逐帧重建的精度。
3. 轨迹记忆（Trajectory memory）：将庞大的历史信息压缩为紧凑的逐帧Token，以极低的存储代价保留对过去路径的“印象”。此机制使模型内存消耗几乎不随视频长度增长。

这三类记忆协同工作，使模型在处理当前帧时能同时调取空间基准、局部细节与历史轨迹。整个机制端到端可学习，模型在训练中自动掌握信息分配与压缩策略。

该设计带来了显著的效率提升。以万帧视频为例，若使用朴素的因果注意力缓存全部历史，需维护约500万个Token；而GCA仅需约7万个Token，压缩了近80倍，且每处理一帧新画面的计算与内存开销几乎恒定。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模

注意力机制对比与模型核心策略

下图对比了不同注意力机制在长序列处理中的特点。每个方框代表一帧的Token，由少量上下文Token和大量图像Token组成。
* (a) 全注意力 (Full attention)：关注所有帧，计算开销巨大。
* (b) 因果注意力 (Causal attention)：支持流式处理，但计算开销随序列长度线性增长。
* (c) 滑动窗口注意力 (Sliding-window attention)：限制了计算成本，但会丢失长程上下文信息。
* (d) 几何上下文注意力 (GCA)：将流式上下文划分为锚框(n=2)、局部窗口(k=2)和轨迹记忆，在保持计算成本随序列长度近乎恒定的同时，保留了丰富的长程上下文信息。

如何实现“有选择地记忆”？

GCA机制需要配套的训练与推理策略，才能使模型在长序列中稳定工作。

1. 渐进式视图训练
直接在长序列上训练极具挑战性，早期帧的位姿误差会沿轨迹传播，破坏损失函数的稳定性。为此，LingBot-Map采用渐进式视图训练策略：模型从短子序列（24帧）开始训练，并在训练过程中逐步增加视图数量至320帧。这使模型先在短序列中获得可靠的局部几何估计，再学习如何在逐渐延长的轨迹上保持全局一致性。

2. 上下文并行策略
随着训练序列长度增加，跨帧注意力的计算复杂度呈平方级增长。LingBot-Map引入上下文并行策略，将不同视图分布至多张GPU，通过高效的全局通信实现并行注意力计算，从而在不牺牲序列长度的前提下完成大规模训练。

3. 复合损失函数设计
模型采用一个复合损失函数进行训练，该函数由深度损失、绝对位姿损失与相对位姿损失组成。模型采用相机到世界坐标系的变换进行监督，规避了世界到相机参数化中旋转与平移耦合带来的误差放大问题。此外，视频时序位置编码将帧序信息注入轨迹记忆Token，使模型能够感知历史帧之间的时间距离，更有效地抑制长程漂移。

4. 高效推理优化
在推理层面，LingBot-Map借鉴自回归大语言模型的KV缓存机制，并通过分页KV缓存布局避免频繁内存重分配的开销，配合FlashInfer框架的稀疏注意力优化，最终在518×378分辨率下实现约20 FPS的实时推理，相比PyTorch基线提速近一倍。

基准测试表现

LingBot-Map团队建立了一个全面的评估基准，涵盖相机位姿估计与3D重建两大任务，横跨室内、室外及大规模场景，结果均显著优于现有流式方法。

相机位姿估计

Oxford Spires 数据集：这是一个涵盖复杂室内外环境、场景变化显著的大规模数据集，是检验流式方法长序列鲁棒性的严苛标准。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
轨迹对比图。(a) 在Oxford-Spires场景中，LingBot-Map的轨迹预测甚至优于双向方法(DA3-Giant)和基于优化的方法(ViPE)，能够在复杂的室内外过渡和昏暗楼梯中准确保持轨迹。(b) 在Tanks and Temples以及其他Oxford-Spires场景中，LingBot-Map方法始终能够生成准确的轨迹，而其他流式方法则存在严重的轨迹漂移。蓝色为真实轨迹，橙色为预测轨迹；起点为圆点(●)，终点为叉号(×)。

稀疏设置（每隔12帧采样，共320帧）：LingBot-Map在几乎所有指标上取得最优成绩，AUC@15达到61.64，AUC@30达到75.16，绝对轨迹误差（ATE）仅为6.42。这一结果不仅大幅领先所有在线方法，甚至超越了需要访问全部帧的离线方法以及依赖迭代优化的方法，表明GCA机制在长序列中的全局一致性保持能力已不输于后处理优化。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
Oxford Spires数据集上的位姿与轨迹精度对比图。在与先前的离线方法、基于优化的方法以及在线方法的对比中，LingBot-Map的方法在绝大多数指标上均实现了最优性能。

密集设置（完整3840帧序列）：大多数流式方法因轨迹漂移而性能大幅劣化。相比之下，LingBot-Map始终保持较低的误差，ATE仅从稀疏设置的6.42小幅升至7.11，在序列长度增加12倍的情况下，误差仅略微增加了0.69，表现出极强的长程稳定性。同时，LingBot-Map实现了20.29 FPS的推理速度，在所有流式方法中保持了最佳的轨迹精度。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
Oxford Spires数据集上稀疏（Sparse）与稠密（Dense）轨迹的精度对比图。对比了在稀疏设置（320帧）和稠密设置（3840帧）下的绝对轨迹误差（ATE），LingBot-Map保持了近乎恒定的精度，而其他方法则出现了明显的退化。

其他数据集表现：在ETH3D、7-Scenes和Tanks and Temples三个数据集上，LingBot-Map同样全面领先。以ETH3D为例，其AUC@3达到27.79，AUC@30达到86.20，ATE低至0.22；在Tanks and Temples上，AUC@30高达92.80，ATE仅为0.20，均为各方法中最优。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
ETH3D、7-Scenes和Tanks & Temples数据集上的位姿与轨迹精度对比图。结果表明，LingBot-Map方法在所有数据集上均取得了最佳性能。

定性比较：在长时间间隔后重新访问场景时，LingBot-Map的方法表现出最小的漂移，能够生成清晰一致的建筑结构重建结果。相比之下，其他方法由于记忆遗忘而出现严重的轨迹漂移和点云碎片化。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
点云重建的定性比较图。

三维重建

在ETH3D上，LingBot-Map的F1得分为98.98，比次优方法Wint3R高出22.7个百分点；在NRGBD数据集上，F1得分达到64.26，同样大幅超过StreamVGGT和TTT3R等方法。精度与完整度的双重提升，表明模型在保持重建准确性的同时，对场景覆盖率也有更充分的保障。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
ETH3D、7-Scenes和NRGBD数据集上的点云重建精度对比图。LingBot-Map方法在准确率、完整性和F1分数方面均取得了最佳结果。

消融实验与效率分析

消融实验进一步验证了各组件的贡献：
* 单独加入锚点初始化可将AUC@3从9.80提升至13.63，ATE从8.59降至7.88。
* 引入相对位姿损失对帧间旋转误差的约束尤为关键，去掉后RPE-rot从2.26恶化至5.35。
* 上下文Token与视频时序位置编码的联合引入则进一步将AUC@3提升至16.39，ATE降至5.98，说明对全局轨迹信息的精确编码是长程一致性的重要保障。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
长序列姿态估计和轨迹精度的消融研究图。所有组成部分均对最终性能有显著贡献。

效率分析：将位姿参考窗口限定为64帧（而非保留全部历史），不仅将推理速度从11.87 FPS提升至20.29 FPS，显存占用从36.06 GB降至13.28 GB，ATE也从6.60进一步下降至5.98。这表明GCA所保留的精选几何上下文，其信息密度高于不加筛选的完整历史缓存，在效率与精度上实现了双赢。

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模
姿态参考窗口（大小为64）与全窗口的效率比较图。姿态参考窗口在显著提高速度和降低内存占用的同时，实现了更高的精度。

纯自回归流式 3D 重建是具身智能领域公认的技术难点。此前的主流方案往往难以在实时性能与内存占用之间取得平衡，这限制了具身系统在复杂、长时任务中的实际应用。

LingBot-Map 的开源为此提供了一个可复现、可验证的解决方案，并降低了相关技术的应用门槛。

从更宏观的视角看，这也是蚂蚁灵波具身大脑平台走向完整的重要一步。随着深度感知、场景理解、决策控制等模块的陆续开源，LingBot-Map 的加入填补了实时空间建模的关键空白，使得一套完整具身大脑所需的模块正逐步齐备。

当然，具身智能的真正成熟仍需在无数真实场景中不断打磨与验证。但此类基础能力的开放与共享，预计将对整个领域的研发进程产生实质性推动。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/30608

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模

机器的空间记忆为何困难？

如何解决“记忆”问题？

注意力机制对比与模型核心策略

如何实现“有选择地记忆”？

基准测试表现

相机位姿估计

三维重建

消融实验与效率分析

相关推荐

Kimi K2 Thinking开源引爆AI界：超越GPT-5的300步工具调用模型实战指南

三大前沿GitHub项目解析：云端IDE、开源游戏宝库与AI呼叫中心革新

GitHub宝藏库推荐：大模型应用、CEO生存指南、AI Agent实战与无代码开发全攻略

英伟达发布最强开源龙虾模型Nemotron 3 Super，120B参数、百万上下文窗口、5倍吞吐量提升

AI 驱动的屏幕活动自动追踪神器 Dayflow：开源工具助你优化工作节奏与时间管理