蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果:
通用的世界模型——LingBot-World。
该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与DeepMind推出的Genie 3相媲美,且在生成时长上更具优势。
LingBot-World生成的视频不仅可供观看,用户还能深度参与其中。通过键盘(WASD)和鼠标,可以实时控制视角的移动与旋转,体验类似3A游戏的交互感:
此外,智能体(Agent) 能够在生成的世界中自主规划并执行动作。用户也可以用自然语言 实时改变 世界中的内容。例如,给定一张初始图像:

只需输入指令如“前面放个烟花”(0-10秒)、“变成冰雪世界”(10-20秒),模型便能据此持续生成视频:
LingBot-World在生成一致性方面表现突出。例如在下面的科幻场景中,无论是远景还是近景,关键元素(如光圈)都保持了高度一致:
除了空间一致性,模型还展现出强大的时序记忆力。即使画面暂时离开了视频中的主体(如一只猫),当镜头转回时,模型仍能记住其状态并推断其在画面外的行为,使得演进过程自然流畅:
同时,LingBot-World严格遵循现实世界的物理规律。在同样的场景中,当猫咪撞到沙发时,不会出现“穿模”等不合理现象,增强了真实感:
模型发布后,在社区中引发了广泛讨论。许多观点认为,其真正的突破在于将记忆力、交互性和持续性整合到了一个统一的框架中。


最关键的是,与闭源的Genie 3不同,LingBot-World选择了完全开源,这被社区视为对开源生态和具身智能领域的重大贡献。


那么,LingBot-World是如何实现这些能力的呢?

LingBot-World是如何炼成的?
从展示的效果来看,构建世界模型面临三大核心挑战:一致性、交互性和实时性。其目标不仅是生成视频,更是要作为一个遵循物理规律的世界模拟器持续运行。
为实现这一目标,团队首先在数据层面进行了精心构建:
1. 混合数据引擎:收集了大量真实世界视频(含第一人称和第三人称视角),并利用虚幻引擎(Unreal Engine)合成数据。游戏引擎生成的数据自带精确的相机位姿和物理碰撞信息,是模型学习因果关系的关键。
2. 分层标注策略:对视频描述进行细粒度拆解:
* 叙事描述:描述视频整体情节与环境变化。
* 静态场景描述:仅描述环境,忽略动作,促使模型学会分离背景与运动。
* 密集时序描述:精确到秒的动作描述(如“第5秒向左转”)。
在模型架构上,LingBot-World采用了三阶段进化策略:

- 阶段一:预训练——目标是“生成一个世界”。基于现有视频生成模型初始化,专注于获得强大的通用视频生成能力,以渲染高保真的纹理和光影。
- 阶段二:中训练——目标是“掌握物理规律”。引入混合专家模型架构,分别负责全局结构布局与细节纹理填充。此阶段注入大量交互数据与游戏逻辑,使模型学会响应控制指令(如按下W键)。通过渐进式课程学习,模型涌现出空间记忆能力,缓解了长视频生成的遗忘问题。
- 阶段三:后训练——目标是“实现实时性”。为提升速度,采用因果注意力机制和少步蒸馏技术,将推理过程转为自回归生成,在保证画质的同时将延迟压缩到1秒以内(16fps生成速度),实现了真正的实时可交互。

经过上述流程,LingBot-World在与Genie 3、Mirage 2等顶尖模型的对比中,展现出明显优势。

尤其在长时序一致性和记忆力方面,LingBot-World做到了生成即记住。

蚂蚁灵波的完整布局
如果将LingBot-World与近期开源的LingBot-Depth、LingBot-VLA结合来看,可以发现蚂蚁灵波正在构建一套完整的具身智能基础设施:
- 感知(眼睛) – LingBot-Depth:通过掩码深度建模技术,补全传感器缺失的深度信息,使机器人能更准确地感知反光、透明等复杂物体。
- 决策(大脑) – LingBot-VLA:基于20000小时真实世界数据训练,具备精准的操作能力和极强的泛化性,已在多个机器人平台上成功完成上百项任务,训练效率也显著提升。
- 环境(模拟) – LingBot-World:即本次开源的通用世界模型,为智能体提供了一个可交互、可持续、符合物理规律的仿真环境。
因为真实世界训练机器人成本高昂、过程缓慢且存在安全隐患;而 LingBot-World 能够生成无穷无尽且符合物理规律的虚拟环境。
更重要的是,感知(LingBot-Depth)、决策(LingBot-VLA)与模拟(LingBot-World)三大模块并非简单叠加,而是形成了 1+1+1 > 3 的协同效应:
- LingBot-VLA 可以在 LingBot-World 生成的虚拟环境中进行千万次推演(Sim-to-Real),以极低成本学习物理规律。
- LingBot-World 生成的高一致性视频可直接转化为高质量 3D 点云,作为训练数据反哺 LingBot-Depth,提升其感知精度。
- VLA 在真实世界获得的反馈,又能优化 World 模型的物理准确性,使模拟环境更加逼真。
这构成了一个围绕具身智能的 完整技术闭环。
蚂蚁灵波的战略布局由此清晰:通过将感知、决策、模拟三大核心组件全部开源,旨在为行业提供一套可复用、标准化的基础设施。
从更长远视角看,蚂蚁灵波当前聚焦的具身智能或许只是主线之一。这套基础设施的强复用性,同样适用于游戏、AIGC 乃至自动驾驶等领域。
蚂蚁灵波的这盘棋,未来很可能进一步扩大版图。
为了验证 LingBot-World 不仅是演示原型,团队还公布了 实际部署 的视频:
项目资源
* 项目主页:https://technology.robbyant.com/lingbot-world
* GitHub:https://github.com/Robbyant/lingbot-world-Tech
* 论文地址:https://github.com/Robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf
* 模型权重:
* Hugging Face:https://huggingface.co/collections/robbyant/lingbot-world
* ModelScope:https://www.modelscope.cn/collections/Robbyant/LingBot-World
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19808
