蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模

今年1月,蚂蚁灵波开源了包括高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA与LingBot-VA,以及世界模型LingBot-World在内的四款大模型。这些模型分别负责从图像中估算深度、对环境进行模拟理解,以及控制机器人的决策与动作,覆盖了感知、理解与行动环节。

然而,一个关键环节仍然缺失:如何将连续的感知数据实时构建成稳定的三维空间模型,为后续模块提供可靠依据。

近期,蚂蚁灵波开源了LingBot-Map,一个基于几何上下文Transformer(Geometric Context Transformer, GCT)的纯自回归流式3D重建基础模型。该模型能在近乎恒定的内存约束下,实现超万帧长视频的实时三维重建,处理速度约20 FPS,并在多个基准测试中超越了现有流式方法。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
LingBot-Map 与最先进的流式重建方法比较

给定连续视频流,LingBot-Map可同步输出精确的相机位姿估计与高质量点云。其能力在多种场景下得到验证:
真实世界航拍:保持稳定的定位能力与高精度3D重建效果。

多房间长序列:面对环境剧变与大幅视角变换,模型表现出极强的鲁棒性。

生成视频建模:与主流生成视频高度兼容,实现稳定的位姿锁定。

长序列户外场景:在快速运动与频繁视角切换下维持可靠的位姿精度。

建筑环绕场景:强化回环重建能力,确保全局一致性。

此次开源内容包括技术报告、核心代码和模型权重,已同步上线Hugging Face和ModelScope平台。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
论文链接:https://arxiv.org/abs/2604.14141
Hugging Face:https://huggingface.co/robbyant/lingbot-map
ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map
GitHub:https://github.com/Robbyant/lingbot-map

至此,从单帧深度估计,到纯自回归的流式3D重建,再到场景理解与控制输出,一条更为完整的技术链路得以贯通。

机器的空间记忆为何困难?

人类能在行走过程中持续建立空间记忆,将连续的感官信息整合成动态地图。然而,让机器实时将二维视频流还原为准确、可实时更新的三维模型,是具身智能和自动驾驶领域的长期难题。核心挑战在于:视频流是无限的,历史信息不能丢失,当前帧需即时处理,而内存资源有限。

现有方案大多存在局限:
传统离线方法(如运动恢复结构,SfM):需收集所有帧后进行全局优化,精度高但无法实时运行。
流式重建方法:旨在逐帧更新三维理解,但面临两大瓶颈:
1. 灾难性遗忘:神经网络易覆盖旧信息,导致长序列重建前后矛盾、全局漂移。
2. 内存膨胀:为对抗遗忘而保存全部历史帧,会导致内存消耗随帧数增长而爆炸,难以应对万帧以上长视频。

LingBot-Map为解决这一两难困境提供了一条新路径。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
LingBot-Map 流程示意图。该框架处理当前视图,通过DINO骨干网络提取特征,经帧注意力层与几何上下文注意力(GCA)层细化。GCA模块聚合来自锚点上下文、局部位姿参考窗口和轨迹记忆上下文的信息。最终,特定任务头部预测相机姿态和深度图,实现对长序列的鲁棒、内存高效的流式3D重建。

如何解决“记忆”问题?

让机器实时理解三维世界,本质上是解决记忆问题:记什么、如何压缩、怎样快速调取。LingBot-Map的核心在于其几何上下文注意力(Geometric Context Attention, GCA)机制。

GCA的设计灵感源于机器人领域的经典算法SLAM。传统SLAM依赖人工编码的几何约束来维护三类空间记忆:锁定坐标原点的参考帧、捕捉近邻细节的局部窗口、记录全局轨迹的稀疏地图。LingBot-Map则将这类空间规律内化到Transformer的注意力机制中,利用因果注意力确保模型仅依据过去和当前信息进行推理,符合实时处理逻辑。

GCA在视频流处理中协同维护三类记忆:
1. 锚点(Anchor):记忆初始坐标系,为整个重建提供稳定基准,防止长期运行中的坐标漂移。
2. 位姿参考窗口(Pose-reference window):捕捉当前位置附近的局部几何细节,保证逐帧重建的精度。
3. 轨迹记忆(Trajectory memory):将庞大的历史信息压缩为紧凑的逐帧Token,以极低的存储代价保留对过去路径的“印象”。此机制使模型内存消耗几乎不随视频长度增长。

这三类记忆协同工作,使模型在处理当前帧时能同时调取空间基准、局部细节与历史轨迹。整个机制端到端可学习,模型在训练中自动掌握信息分配与压缩策略。

该设计带来了显著的效率提升。以万帧视频为例,若使用朴素的因果注意力缓存全部历史,需维护约500万个Token;而GCA仅需约7万个Token,压缩了近80倍,且每处理一帧新画面的计算与内存开销几乎恒定。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模

注意力机制对比与模型核心策略

下图对比了不同注意力机制在长序列处理中的特点。每个方框代表一帧的Token,由少量上下文Token和大量图像Token组成。
* (a) 全注意力 (Full attention):关注所有帧,计算开销巨大。
* (b) 因果注意力 (Causal attention):支持流式处理,但计算开销随序列长度线性增长。
* (c) 滑动窗口注意力 (Sliding-window attention):限制了计算成本,但会丢失长程上下文信息。
* (d) 几何上下文注意力 (GCA):将流式上下文划分为锚框(n=2)、局部窗口(k=2)和轨迹记忆,在保持计算成本随序列长度近乎恒定的同时,保留了丰富的长程上下文信息。

如何实现“有选择地记忆”?

GCA机制需要配套的训练与推理策略,才能使模型在长序列中稳定工作。

1. 渐进式视图训练
直接在长序列上训练极具挑战性,早期帧的位姿误差会沿轨迹传播,破坏损失函数的稳定性。为此,LingBot-Map采用渐进式视图训练策略:模型从短子序列(24帧)开始训练,并在训练过程中逐步增加视图数量至320帧。这使模型先在短序列中获得可靠的局部几何估计,再学习如何在逐渐延长的轨迹上保持全局一致性。

2. 上下文并行策略
随着训练序列长度增加,跨帧注意力的计算复杂度呈平方级增长。LingBot-Map引入上下文并行策略,将不同视图分布至多张GPU,通过高效的全局通信实现并行注意力计算,从而在不牺牲序列长度的前提下完成大规模训练。

3. 复合损失函数设计
模型采用一个复合损失函数进行训练,该函数由深度损失、绝对位姿损失与相对位姿损失组成。模型采用相机到世界坐标系的变换进行监督,规避了世界到相机参数化中旋转与平移耦合带来的误差放大问题。此外,视频时序位置编码将帧序信息注入轨迹记忆Token,使模型能够感知历史帧之间的时间距离,更有效地抑制长程漂移。

4. 高效推理优化
在推理层面,LingBot-Map借鉴自回归大语言模型的KV缓存机制,并通过分页KV缓存布局避免频繁内存重分配的开销,配合FlashInfer框架的稀疏注意力优化,最终在518×378分辨率下实现约20 FPS的实时推理,相比PyTorch基线提速近一倍。

基准测试表现

LingBot-Map团队建立了一个全面的评估基准,涵盖相机位姿估计与3D重建两大任务,横跨室内、室外及大规模场景,结果均显著优于现有流式方法。

相机位姿估计

Oxford Spires 数据集:这是一个涵盖复杂室内外环境、场景变化显著的大规模数据集,是检验流式方法长序列鲁棒性的严苛标准。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
轨迹对比图。(a) 在Oxford-Spires场景中,LingBot-Map的轨迹预测甚至优于双向方法(DA3-Giant)和基于优化的方法(ViPE),能够在复杂的室内外过渡和昏暗楼梯中准确保持轨迹。(b) 在Tanks and Temples以及其他Oxford-Spires场景中,LingBot-Map方法始终能够生成准确的轨迹,而其他流式方法则存在严重的轨迹漂移。蓝色为真实轨迹,橙色为预测轨迹;起点为圆点(●),终点为叉号(×)。

  • 稀疏设置(每隔12帧采样,共320帧):LingBot-Map在几乎所有指标上取得最优成绩,AUC@15达到61.64,AUC@30达到75.16,绝对轨迹误差(ATE)仅为6.42。这一结果不仅大幅领先所有在线方法,甚至超越了需要访问全部帧的离线方法以及依赖迭代优化的方法,表明GCA机制在长序列中的全局一致性保持能力已不输于后处理优化。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
Oxford Spires数据集上的位姿与轨迹精度对比图。在与先前的离线方法、基于优化的方法以及在线方法的对比中,LingBot-Map的方法在绝大多数指标上均实现了最优性能。

  • 密集设置(完整3840帧序列):大多数流式方法因轨迹漂移而性能大幅劣化。相比之下,LingBot-Map始终保持较低的误差,ATE仅从稀疏设置的6.42小幅升至7.11,在序列长度增加12倍的情况下,误差仅略微增加了0.69,表现出极强的长程稳定性。同时,LingBot-Map实现了20.29 FPS的推理速度,在所有流式方法中保持了最佳的轨迹精度。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
Oxford Spires数据集上稀疏(Sparse)与稠密(Dense)轨迹的精度对比图。对比了在稀疏设置(320帧)和稠密设置(3840帧)下的绝对轨迹误差(ATE),LingBot-Map保持了近乎恒定的精度,而其他方法则出现了明显的退化。

其他数据集表现:在ETH3D、7-Scenes和Tanks and Temples三个数据集上,LingBot-Map同样全面领先。以ETH3D为例,其AUC@3达到27.79,AUC@30达到86.20,ATE低至0.22;在Tanks and Temples上,AUC@30高达92.80,ATE仅为0.20,均为各方法中最优。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
ETH3D、7-Scenes和Tanks & Temples数据集上的位姿与轨迹精度对比图。结果表明,LingBot-Map方法在所有数据集上均取得了最佳性能。

定性比较:在长时间间隔后重新访问场景时,LingBot-Map的方法表现出最小的漂移,能够生成清晰一致的建筑结构重建结果。相比之下,其他方法由于记忆遗忘而出现严重的轨迹漂移和点云碎片化。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
点云重建的定性比较图。

三维重建

在ETH3D上,LingBot-Map的F1得分为98.98,比次优方法Wint3R高出22.7个百分点;在NRGBD数据集上,F1得分达到64.26,同样大幅超过StreamVGGT和TTT3R等方法。精度与完整度的双重提升,表明模型在保持重建准确性的同时,对场景覆盖率也有更充分的保障。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
ETH3D、7-Scenes和NRGBD数据集上的点云重建精度对比图。LingBot-Map方法在准确率、完整性和F1分数方面均取得了最佳结果。

消融实验与效率分析

消融实验进一步验证了各组件的贡献:
* 单独加入锚点初始化可将AUC@3从9.80提升至13.63,ATE从8.59降至7.88。
* 引入相对位姿损失对帧间旋转误差的约束尤为关键,去掉后RPE-rot从2.26恶化至5.35。
* 上下文Token与视频时序位置编码的联合引入则进一步将AUC@3提升至16.39,ATE降至5.98,说明对全局轨迹信息的精确编码是长程一致性的重要保障。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
长序列姿态估计和轨迹精度的消融研究图。所有组成部分均对最终性能有显著贡献。

效率分析:将位姿参考窗口限定为64帧(而非保留全部历史),不仅将推理速度从11.87 FPS提升至20.29 FPS,显存占用从36.06 GB降至13.28 GB,ATE也从6.60进一步下降至5.98。这表明GCA所保留的精选几何上下文,其信息密度高于不加筛选的完整历史缓存,在效率与精度上实现了双赢。

蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
姿态参考窗口(大小为64)与全窗口的效率比较图。姿态参考窗口在显著提高速度和降低内存占用的同时,实现了更高的精度。

纯自回归流式 3D 重建是具身智能领域公认的技术难点。此前的主流方案往往难以在实时性能与内存占用之间取得平衡,这限制了具身系统在复杂、长时任务中的实际应用。

LingBot-Map 的开源为此提供了一个可复现、可验证的解决方案,并降低了相关技术的应用门槛。

从更宏观的视角看,这也是蚂蚁灵波具身大脑平台走向完整的重要一步。随着深度感知、场景理解、决策控制等模块的陆续开源,LingBot-Map 的加入填补了实时空间建模的关键空白,使得一套完整具身大脑所需的模块正逐步齐备。

当然,具身智能的真正成熟仍需在无数真实场景中不断打磨与验证。但此类基础能力的开放与共享,预计将对整个领域的研发进程产生实质性推动。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30608

(0)
上一篇 2天前
下一篇 1天前

相关推荐