SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

一款名为LingBot-Map的流式3D重建基础模型，仅依靠普通RGB摄像头，无需激光雷达或深度传感器，即可实现20FPS的实时完整3D地图构建。其最显著的特点是，在连续处理长达一万帧的图像序列时，重建精度几乎不衰减。

SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

这一成果在机器人学界与工业界引发了广泛关注。帝国理工学院教授、SLAM领域奠基人之一Andrew Davison罕见地公开评价道：“看起来这里面融入了令人印象深刻的SLAM思考。祝贺你们取得的成果。”Davison教授极少公开点评具体工程项目，其主动转发并使用了“impressive”一词，足见该工作的分量。

SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

Agility Robotics的AI研究员也表示，“等这一天等了太久”。

SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

SLAM泰斗下场认可，业界直呼“终于等到”

LingBot-Map的开源吸引了大量关注。其实测效果展示了强大的性能：

航拍场景：摄像头扫过城市街区，模型能实时重建出建筑立面、屋顶、道路、树木的完整3D点云，甚至能分辨楼顶的空调外机。
室内场景：摄像头在多个房间穿行，光照与结构持续变化，重建出的多房间3D地图在空间上严格对齐，未出现房间错位或重影。
极端暗光环境：在几乎全黑的狭窄楼道中，传统视觉方案大多失效，而LingBot-Map仍能重建出连贯的走廊结构和稳定的运动轨迹。
虚拟世界兼容：团队将AI生成的卡通风格视频输入给LingBot-Map，模型同样能完成稳定的3D重建，打通了“虚拟世界→3D空间理解”的链路。

在Oxford Spires和Tanks & Temples等标准数据集上的轨迹对比显示，LingBot-Map预测的轨迹（橙色）与真实轨迹（蓝色）几乎完全重合，而同期其他方法已出现严重漂移。

核心技术：一套“选择性记忆”系统

流式3D重建的核心挑战在于，模型需在“边看边建”的同时，既不遗忘过去看到的信息，又不让内存无限增长。

传统方案往往面临两难：要么因压缩过狠而遗忘历史，要么因缓存所有历史帧导致内存线性增长，无法处理长序列。LingBot-Map的创新在于，从经典SLAM的结构性思想中获得启发，并将其内化到Transformer的注意力机制中，形成了一套名为几何上下文注意力（GCA） 的“选择性记忆”系统。

SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

GCA同时维护三层不同粒度的记忆：
1. 锚点：锁定最初几帧作为坐标系和尺度的绝对基准，确保长期一致性。
2. 位姿参考窗口：保留最近几十帧的完整视觉信息，用于捕捉当前位置的密集几何细节。
3. 轨迹记忆：对更早的历史帧，每帧仅保留6个高度压缩的摘要Token，用以记录走过的关键路径信息，极大节省内存。

这套机制效果显著。在处理一万帧的视频时，标准因果注意力需缓存约500万个Token，而GCA仅需约7万个，内存增长速率降低了约80倍。这使得LingBot-Map能在恒定内存下处理超长视频序列。

模型训练采用两阶段策略：先在29个多样化数据集上预训练以建立通用几何理解能力；再引入GCA机制，逐步增加训练视图数量，让模型学会处理长轨迹。

性能评测：精度领先，长序列稳定

论文在多个权威基准上进行了全面评测，结果均显示出领先优势：

SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

Oxford Spires（大规模室内外混合轨迹）：绝对轨迹误差（ATE）为6.42米，显著优于第二名（18.16米），甚至超过了需要看完所有帧再处理的离线方法（12.87米）。
长序列稳定性：当序列长度从320帧增加到3840帧时，其ATE仅从6.42米微升至7.11米，精度衰减极小。
ETH3D（室内外混合，含激光真值）：重建F1分数达到98.98%，较第二名（77.28%）提升超过21个百分点。
Tanks & Temples（大规模户外）：ATE为0.20米，优于第二名的0.76米。
7-Scenes（室内RGB-D）：ATE为0.08米，为全场最佳。

对机器人领域的潜在影响

LingBot-Map的突破性不仅体现在学术指标上，更为机器人产业带来了切实的变革可能：

大幅降低硬件成本：仅需廉价的RGB摄像头即可实现高质量的3D感知与建图，有望替代成本高昂的激光雷达方案，这对于家用服务机器人、低速配送车等对价格敏感的品类意义重大。
实现长航时自主导航：其恒定内存处理万帧的能力，使得机器人在大型仓库、物流中心或城市街道进行数小时的连续巡检与导航成为可能。
与深度估计模型结合，完成感知闭环：该工作可与团队此前开源的LingBot-Depth模型结合。LingBot-Depth通过掩码深度建模技术，能有效解决透明、反光物体导致的深度图空洞问题，在权威基准上达到SOTA精度。

两者组合，LingBot-Depth负责精确感知每个像素的距离，LingBot-Map负责实时理解整体三维场景，为机器人的灵巧操作（如抓取透明玻璃杯、反光金属件）提供了完整可靠的空间感知基础。据悉，LingBot-Depth已通过奥比中光深度视觉实验室认证，并计划推出新一代深度相机产品。

一张拼图，五步走完

将视角拉高来看，LingBot-Map 的开源并非孤立事件，而是蚂蚁灵波在具身智能技术进化路径上的最新里程碑。

回顾蚂蚁灵波过去三个月的技术路线图：今年1月，其在“具身智能进化周”中开源了四款核心模型。

LingBot-Depth：负责深度感知。
LingBot-VLA：作为具身大模型，在上海交大GM-100评测中刷新了真机成功率纪录。
LingBot-World：对标Google Genie 3，实现16 FPS的实时交互。
LingBot-VA：首次实现自回归视频-动作联合建模，真机任务成功率比基准模型平均提升20%。

然而，技术栈中一直存在一个关键缺口：深度估计提供的是逐帧的“点”信息，而3D建图需要持续的“面”信息，二者之间的实时空间理解层此前是空白的。

LingBot-Map 的到来，精准地填补了这块拼图。

至此，蚂蚁灵波的具身智能技术栈形成了一个从感知到决策的完整闭环：
看清世界（Depth） → 理解空间（Map） → 模拟物理（World） → 决策行动（VLA/VA）

这条技术链路的每一个环节均已基于 Apache 2.0 协议开源，代码、模型权重及技术报告同步发布于 Hugging Face 和 ModelScope 平台。这在全球范围内亦属罕见。

对于机器人行业而言，这意味着单一摄像头所能实现的功能，从今天起被极大地拓展了。

参考链接：
* Hugging Face： https://huggingface.co/robbyant/lingbot-map
* ModelScope： https://www.modelscope.cn/models/Robbyant/lingbot-map
* GitHub： https://github.com/Robbyant/lingbot-map
* 论文： https://arxiv.org/abs/2604.14141
* 项目主页： https://technology.robbyant.com/lingbot-map

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/31291

SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

SLAM泰斗下场认可，业界直呼“终于等到”

核心技术：一套“选择性记忆”系统

性能评测：精度领先，长序列稳定

对机器人领域的潜在影响

相关推荐

中国团队突破空间智能核心技术：InSpatio-WorldFM开源实时3D世界模型，开启AI物理交互新纪元

AiToEarn：AI驱动的全平台社交媒体自动化管理工具，让内容创作与分发一键搞定

Hypatia：开源AI记忆管理系统，融合知识图谱与向量检索，让AI拥有“长期记忆”

nncase：基于e-graph的端到端LLM编译器，突破异构存储架构性能瓶颈

DeepSeek-Math-V2震撼开源：685B巨无霸模型登顶数学推理巅峰，IMO金牌水平+Putnam近乎满分