蚂蚁灵波开源世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3

蚂蚁灵波开源通用世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3

在连续开源机器人的眼睛（LingBot-Depth）与大脑（LingBot-VLA）之后，蚂蚁灵波（Ant LingBot）团队再次发布了一项重要成果：

通用的世界模型——LingBot-World。

该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与DeepMind推出的Genie 3相媲美，且在生成时长上更具优势。

LingBot-World生成的视频不仅可供观看，用户还能深度参与其中。通过键盘（WASD）和鼠标，可以实时控制视角的移动与旋转，体验类似3A游戏的交互感：

此外，智能体（Agent） 能够在生成的世界中自主规划并执行动作。用户也可以用自然语言 实时改变 世界中的内容。例如，给定一张初始图像：

只需输入指令如“前面放个烟花”（0-10秒）、“变成冰雪世界”（10-20秒），模型便能据此持续生成视频：

LingBot-World在生成一致性方面表现突出。例如在下面的科幻场景中，无论是远景还是近景，关键元素（如光圈）都保持了高度一致：

除了空间一致性，模型还展现出强大的时序记忆力。即使画面暂时离开了视频中的主体（如一只猫），当镜头转回时，模型仍能记住其状态并推断其在画面外的行为，使得演进过程自然流畅：

同时，LingBot-World严格遵循现实世界的物理规律。在同样的场景中，当猫咪撞到沙发时，不会出现“穿模”等不合理现象，增强了真实感：

模型发布后，在社区中引发了广泛讨论。许多观点认为，其真正的突破在于将记忆力、交互性和持续性整合到了一个统一的框架中。

最关键的是，与闭源的Genie 3不同，LingBot-World选择了完全开源，这被社区视为对开源生态和具身智能领域的重大贡献。

那么，LingBot-World是如何实现这些能力的呢？

LingBot-World是如何炼成的？

从展示的效果来看，构建世界模型面临三大核心挑战：一致性、交互性和实时性。其目标不仅是生成视频，更是要作为一个遵循物理规律的世界模拟器持续运行。

为实现这一目标，团队首先在数据层面进行了精心构建：
1. 混合数据引擎：收集了大量真实世界视频（含第一人称和第三人称视角），并利用虚幻引擎（Unreal Engine）合成数据。游戏引擎生成的数据自带精确的相机位姿和物理碰撞信息，是模型学习因果关系的关键。

2. 分层标注策略：对视频描述进行细粒度拆解：
* 叙事描述：描述视频整体情节与环境变化。
* 静态场景描述：仅描述环境，忽略动作，促使模型学会分离背景与运动。
* 密集时序描述：精确到秒的动作描述（如“第5秒向左转”）。

在模型架构上，LingBot-World采用了三阶段进化策略：

阶段一：预训练——目标是“生成一个世界”。基于现有视频生成模型初始化，专注于获得强大的通用视频生成能力，以渲染高保真的纹理和光影。
阶段二：中训练——目标是“掌握物理规律”。引入混合专家模型架构，分别负责全局结构布局与细节纹理填充。此阶段注入大量交互数据与游戏逻辑，使模型学会响应控制指令（如按下W键）。通过渐进式课程学习，模型涌现出空间记忆能力，缓解了长视频生成的遗忘问题。
阶段三：后训练——目标是“实现实时性”。为提升速度，采用因果注意力机制和少步蒸馏技术，将推理过程转为自回归生成，在保证画质的同时将延迟压缩到1秒以内（16fps生成速度），实现了真正的实时可交互。

经过上述流程，LingBot-World在与Genie 3、Mirage 2等顶尖模型的对比中，展现出明显优势。

尤其在长时序一致性和记忆力方面，LingBot-World做到了生成即记住。

蚂蚁灵波的完整布局

如果将LingBot-World与近期开源的LingBot-Depth、LingBot-VLA结合来看，可以发现蚂蚁灵波正在构建一套完整的具身智能基础设施：

感知（眼睛） – LingBot-Depth：通过掩码深度建模技术，补全传感器缺失的深度信息，使机器人能更准确地感知反光、透明等复杂物体。
决策（大脑） – LingBot-VLA：基于20000小时真实世界数据训练，具备精准的操作能力和极强的泛化性，已在多个机器人平台上成功完成上百项任务，训练效率也显著提升。
环境（模拟） – LingBot-World：即本次开源的通用世界模型，为智能体提供了一个可交互、可持续、符合物理规律的仿真环境。

因为真实世界训练机器人成本高昂、过程缓慢且存在安全隐患；而 LingBot-World 能够生成无穷无尽且符合物理规律的虚拟环境。

更重要的是，感知（LingBot-Depth）、决策（LingBot-VLA）与模拟（LingBot-World）三大模块并非简单叠加，而是形成了 1+1+1 > 3 的协同效应：

LingBot-VLA 可以在 LingBot-World 生成的虚拟环境中进行千万次推演（Sim-to-Real），以极低成本学习物理规律。
LingBot-World 生成的高一致性视频可直接转化为高质量 3D 点云，作为训练数据反哺 LingBot-Depth，提升其感知精度。
VLA 在真实世界获得的反馈，又能优化 World 模型的物理准确性，使模拟环境更加逼真。

这构成了一个围绕具身智能的 完整技术闭环。

蚂蚁灵波的战略布局由此清晰：通过将感知、决策、模拟三大核心组件全部开源，旨在为行业提供一套可复用、标准化的基础设施。

从更长远视角看，蚂蚁灵波当前聚焦的具身智能或许只是主线之一。这套基础设施的强复用性，同样适用于游戏、AIGC 乃至自动驾驶等领域。

蚂蚁灵波的这盘棋，未来很可能进一步扩大版图。

为了验证 LingBot-World 不仅是演示原型，团队还公布了 实际部署 的视频：

项目资源
* 项目主页：https://technology.robbyant.com/lingbot-world
* GitHub：https://github.com/Robbyant/lingbot-world-Tech
* 论文地址：https://github.com/Robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf
* 模型权重：
* Hugging Face：https://huggingface.co/collections/robbyant/lingbot-world
* ModelScope：https://www.modelscope.cn/collections/Robbyant/LingBot-World

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19808

蚂蚁灵波开源世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3

蚂蚁灵波开源通用世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3

LingBot-World是如何炼成的？

蚂蚁灵波的完整布局

相关推荐

零代码革命：Postman AI Agent Builder一键将10万API转化为MCP服务器

突破百万上下文：面壁智能SALA混合注意力架构引领端侧大模型新纪元

从“我不是机器人”到隐私监控：reCAPTCHA的演化与AI训练数据伦理困境

中国团队首创医疗AI临床安全-有效性双轨评估标准CSEDB，MedGPT全球评测夺冠

破折号成瘾：AI写作风格如何暴露大模型训练数据的历史断层