一款名为LingBot-Map的流式3D重建基础模型,仅依靠普通RGB摄像头,无需激光雷达或深度传感器,即可实现20FPS的实时完整3D地图构建。其最显著的特点是,在连续处理长达一万帧的图像序列时,重建精度几乎不衰减。

这一成果在机器人学界与工业界引发了广泛关注。帝国理工学院教授、SLAM领域奠基人之一Andrew Davison罕见地公开评价道:“看起来这里面融入了令人印象深刻的SLAM思考。祝贺你们取得的成果。”Davison教授极少公开点评具体工程项目,其主动转发并使用了“impressive”一词,足见该工作的分量。

Agility Robotics的AI研究员也表示,“等这一天等了太久”。

SLAM泰斗下场认可,业界直呼“终于等到”
LingBot-Map的开源吸引了大量关注。其实测效果展示了强大的性能:
- 航拍场景:摄像头扫过城市街区,模型能实时重建出建筑立面、屋顶、道路、树木的完整3D点云,甚至能分辨楼顶的空调外机。

- 室内场景:摄像头在多个房间穿行,光照与结构持续变化,重建出的多房间3D地图在空间上严格对齐,未出现房间错位或重影。
- 极端暗光环境:在几乎全黑的狭窄楼道中,传统视觉方案大多失效,而LingBot-Map仍能重建出连贯的走廊结构和稳定的运动轨迹。
- 虚拟世界兼容:团队将AI生成的卡通风格视频输入给LingBot-Map,模型同样能完成稳定的3D重建,打通了“虚拟世界→3D空间理解”的链路。

在Oxford Spires和Tanks & Temples等标准数据集上的轨迹对比显示,LingBot-Map预测的轨迹(橙色)与真实轨迹(蓝色)几乎完全重合,而同期其他方法已出现严重漂移。
核心技术:一套“选择性记忆”系统
流式3D重建的核心挑战在于,模型需在“边看边建”的同时,既不遗忘过去看到的信息,又不让内存无限增长。
传统方案往往面临两难:要么因压缩过狠而遗忘历史,要么因缓存所有历史帧导致内存线性增长,无法处理长序列。LingBot-Map的创新在于,从经典SLAM的结构性思想中获得启发,并将其内化到Transformer的注意力机制中,形成了一套名为几何上下文注意力(GCA) 的“选择性记忆”系统。

GCA同时维护三层不同粒度的记忆:
1. 锚点:锁定最初几帧作为坐标系和尺度的绝对基准,确保长期一致性。
2. 位姿参考窗口:保留最近几十帧的完整视觉信息,用于捕捉当前位置的密集几何细节。
3. 轨迹记忆:对更早的历史帧,每帧仅保留6个高度压缩的摘要Token,用以记录走过的关键路径信息,极大节省内存。
这套机制效果显著。在处理一万帧的视频时,标准因果注意力需缓存约500万个Token,而GCA仅需约7万个,内存增长速率降低了约80倍。这使得LingBot-Map能在恒定内存下处理超长视频序列。
模型训练采用两阶段策略:先在29个多样化数据集上预训练以建立通用几何理解能力;再引入GCA机制,逐步增加训练视图数量,让模型学会处理长轨迹。
性能评测:精度领先,长序列稳定
论文在多个权威基准上进行了全面评测,结果均显示出领先优势:

- Oxford Spires(大规模室内外混合轨迹):绝对轨迹误差(ATE)为6.42米,显著优于第二名(18.16米),甚至超过了需要看完所有帧再处理的离线方法(12.87米)。
- 长序列稳定性:当序列长度从320帧增加到3840帧时,其ATE仅从6.42米微升至7.11米,精度衰减极小。
- ETH3D(室内外混合,含激光真值):重建F1分数达到98.98%,较第二名(77.28%)提升超过21个百分点。
- Tanks & Temples(大规模户外):ATE为0.20米,优于第二名的0.76米。
- 7-Scenes(室内RGB-D):ATE为0.08米,为全场最佳。
对机器人领域的潜在影响
LingBot-Map的突破性不仅体现在学术指标上,更为机器人产业带来了切实的变革可能:
- 大幅降低硬件成本:仅需廉价的RGB摄像头即可实现高质量的3D感知与建图,有望替代成本高昂的激光雷达方案,这对于家用服务机器人、低速配送车等对价格敏感的品类意义重大。
- 实现长航时自主导航:其恒定内存处理万帧的能力,使得机器人在大型仓库、物流中心或城市街道进行数小时的连续巡检与导航成为可能。
- 与深度估计模型结合,完成感知闭环:该工作可与团队此前开源的LingBot-Depth模型结合。LingBot-Depth通过掩码深度建模技术,能有效解决透明、反光物体导致的深度图空洞问题,在权威基准上达到SOTA精度。

两者组合,LingBot-Depth负责精确感知每个像素的距离,LingBot-Map负责实时理解整体三维场景,为机器人的灵巧操作(如抓取透明玻璃杯、反光金属件)提供了完整可靠的空间感知基础。据悉,LingBot-Depth已通过奥比中光深度视觉实验室认证,并计划推出新一代深度相机产品。
一张拼图,五步走完
将视角拉高来看,LingBot-Map 的开源并非孤立事件,而是蚂蚁灵波在具身智能技术进化路径上的最新里程碑。
回顾蚂蚁灵波过去三个月的技术路线图:今年1月,其在“具身智能进化周”中开源了四款核心模型。
- LingBot-Depth:负责深度感知。
- LingBot-VLA:作为具身大模型,在上海交大GM-100评测中刷新了真机成功率纪录。
- LingBot-World:对标Google Genie 3,实现16 FPS的实时交互。
- LingBot-VA:首次实现自回归视频-动作联合建模,真机任务成功率比基准模型平均提升20%。
然而,技术栈中一直存在一个关键缺口:深度估计提供的是逐帧的“点”信息,而3D建图需要持续的“面”信息,二者之间的实时空间理解层此前是空白的。
LingBot-Map 的到来,精准地填补了这块拼图。
至此,蚂蚁灵波的具身智能技术栈形成了一个从感知到决策的完整闭环:
看清世界(Depth) → 理解空间(Map) → 模拟物理(World) → 决策行动(VLA/VA)
这条技术链路的每一个环节均已基于 Apache 2.0 协议开源,代码、模型权重及技术报告同步发布于 Hugging Face 和 ModelScope 平台。这在全球范围内亦属罕见。
对于机器人行业而言,这意味着单一摄像头所能实现的功能,从今天起被极大地拓展了。
参考链接:
* Hugging Face: https://huggingface.co/robbyant/lingbot-map
* ModelScope: https://www.modelscope.cn/models/Robbyant/lingbot-map
* GitHub: https://github.com/Robbyant/lingbot-map
* 论文: https://arxiv.org/abs/2604.14141
* 项目主页: https://technology.robbyant.com/lingbot-map
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31291

