蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果:

通用的世界模型——LingBot-World。

该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与DeepMind推出的Genie 3相媲美,且在生成时长上更具优势。

LingBot-World生成的视频不仅可供观看,用户还能深度参与其中。通过键盘(WASD)和鼠标,可以实时控制视角的移动与旋转,体验类似3A游戏的交互感:

此外,智能体(Agent) 能够在生成的世界中自主规划并执行动作。用户也可以用自然语言 实时改变 世界中的内容。例如,给定一张初始图像:

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

只需输入指令如“前面放个烟花”(0-10秒)、“变成冰雪世界”(10-20秒),模型便能据此持续生成视频:

LingBot-World在生成一致性方面表现突出。例如在下面的科幻场景中,无论是远景还是近景,关键元素(如光圈)都保持了高度一致:

除了空间一致性,模型还展现出强大的时序记忆力。即使画面暂时离开了视频中的主体(如一只猫),当镜头转回时,模型仍能记住其状态并推断其在画面外的行为,使得演进过程自然流畅:

同时,LingBot-World严格遵循现实世界的物理规律。在同样的场景中,当猫咪撞到沙发时,不会出现“穿模”等不合理现象,增强了真实感:

模型发布后,在社区中引发了广泛讨论。许多观点认为,其真正的突破在于将记忆力、交互性和持续性整合到了一个统一的框架中。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

最关键的是,与闭源的Genie 3不同,LingBot-World选择了完全开源,这被社区视为对开源生态和具身智能领域的重大贡献。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

那么,LingBot-World是如何实现这些能力的呢?

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

LingBot-World是如何炼成的?

从展示的效果来看,构建世界模型面临三大核心挑战:一致性交互性实时性。其目标不仅是生成视频,更是要作为一个遵循物理规律的世界模拟器持续运行。

为实现这一目标,团队首先在数据层面进行了精心构建:
1. 混合数据引擎:收集了大量真实世界视频(含第一人称和第三人称视角),并利用虚幻引擎(Unreal Engine)合成数据。游戏引擎生成的数据自带精确的相机位姿和物理碰撞信息,是模型学习因果关系的关键。
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
2. 分层标注策略:对视频描述进行细粒度拆解:
* 叙事描述:描述视频整体情节与环境变化。
* 静态场景描述:仅描述环境,忽略动作,促使模型学会分离背景与运动。
* 密集时序描述:精确到秒的动作描述(如“第5秒向左转”)。
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

模型架构上,LingBot-World采用了三阶段进化策略

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

  • 阶段一:预训练——目标是“生成一个世界”。基于现有视频生成模型初始化,专注于获得强大的通用视频生成能力,以渲染高保真的纹理和光影。
  • 阶段二:中训练——目标是“掌握物理规律”。引入混合专家模型架构,分别负责全局结构布局与细节纹理填充。此阶段注入大量交互数据与游戏逻辑,使模型学会响应控制指令(如按下W键)。通过渐进式课程学习,模型涌现出空间记忆能力,缓解了长视频生成的遗忘问题。
  • 阶段三:后训练——目标是“实现实时性”。为提升速度,采用因果注意力机制和少步蒸馏技术,将推理过程转为自回归生成,在保证画质的同时将延迟压缩到1秒以内(16fps生成速度),实现了真正的实时可交互。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

经过上述流程,LingBot-World在与Genie 3、Mirage 2等顶尖模型的对比中,展现出明显优势。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3 蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

尤其在长时序一致性和记忆力方面,LingBot-World做到了生成即记住

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

蚂蚁灵波的完整布局

如果将LingBot-World与近期开源的LingBot-Depth、LingBot-VLA结合来看,可以发现蚂蚁灵波正在构建一套完整的具身智能基础设施

  1. 感知(眼睛) – LingBot-Depth:通过掩码深度建模技术,补全传感器缺失的深度信息,使机器人能更准确地感知反光、透明等复杂物体。
  2. 决策(大脑) – LingBot-VLA:基于20000小时真实世界数据训练,具备精准的操作能力和极强的泛化性,已在多个机器人平台上成功完成上百项任务,训练效率也显著提升。
  3. 环境(模拟) – LingBot-World:即本次开源的通用世界模型,为智能体提供了一个可交互、可持续、符合物理规律的仿真环境。

因为真实世界训练机器人成本高昂、过程缓慢且存在安全隐患;而 LingBot-World 能够生成无穷无尽且符合物理规律的虚拟环境。

更重要的是,感知(LingBot-Depth)、决策(LingBot-VLA)与模拟(LingBot-World)三大模块并非简单叠加,而是形成了 1+1+1 > 3 的协同效应:

  • LingBot-VLA 可以在 LingBot-World 生成的虚拟环境中进行千万次推演(Sim-to-Real),以极低成本学习物理规律。
  • LingBot-World 生成的高一致性视频可直接转化为高质量 3D 点云,作为训练数据反哺 LingBot-Depth,提升其感知精度。
  • VLA 在真实世界获得的反馈,又能优化 World 模型的物理准确性,使模拟环境更加逼真。

这构成了一个围绕具身智能的 完整技术闭环

蚂蚁灵波的战略布局由此清晰:通过将感知、决策、模拟三大核心组件全部开源,旨在为行业提供一套可复用、标准化的基础设施。

从更长远视角看,蚂蚁灵波当前聚焦的具身智能或许只是主线之一。这套基础设施的强复用性,同样适用于游戏、AIGC 乃至自动驾驶等领域。

蚂蚁灵波的这盘棋,未来很可能进一步扩大版图。

为了验证 LingBot-World 不仅是演示原型,团队还公布了 实际部署 的视频:

项目资源
* 项目主页:https://technology.robbyant.com/lingbot-world
* GitHub:https://github.com/Robbyant/lingbot-world-Tech
* 论文地址:https://github.com/Robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf
* 模型权重:
* Hugging Face:https://huggingface.co/collections/robbyant/lingbot-world
* ModelScope:https://www.modelscope.cn/collections/Robbyant/LingBot-World


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19808

(0)
上一篇 3天前
下一篇 3天前

相关推荐

  • Vibe Coding革命:从代码苦力到AI导演,GitHub神级指南引领开发新范式

    Vibe Coding 的核心,是让开发者从编写每一行代码的“苦力”中解放出来,转而扮演“导演”的角色。 开发者只需专注于把握产品的核心逻辑、用户流程、审美与交互等宏观“感觉”(Vibe),而将具体的编码实现工作交给 Cursor、Windsurf、Trae 等 AI 编程工具来完成。正如 Andrej Karpathy 所言:“我几乎不写代码了,我只负责调…

    2025年12月27日
    7600
  • 四大前沿AI开源项目盘点:从智能体编排到浏览器自动化,加速你的开发效率

    Claude Code 的开源外挂 Agents 是一个专为 Claude Code 设计的智能自动化和多智能体编排系统。借助该项目,开发者可以构建一个由不同 AI 专家组成的协作团队,而非仅依赖单一的 AI 助手。 该系统集成了丰富的资源,例如 63 个插件、85 个智能体以及 47 项技能: 该项目的一个核心优势在于其极致的 Token 效率与混合模型编…

    2025年12月14日
    12300
  • 5个GitHub开源项目助你副业变现百万:从一人企业到独立开发实战指南

    一人企业方法论 开源项目《一人企业方法论》目前已更新至第二版,专为希望独立创业或开展副业的个人提供实用指导。无论你是从事自媒体、电商还是数字商品,即使没有技术背景,也能从中获得启发。 该项目的核心思想倡导一种以个人为核心、精益化且可持续的商业模式。它不追求规模化增长和资本驱动,而是专注于利用现代技术工具与系统化方法论,帮助个人独立构建并运营一个健康、盈利的微…

    2025年11月12日
    7400
  • 十大AI Agent开发平台深度解析:从AutoGPT到LangChain,构建下一代智能应用

    AutoGPT AutoGPT 是 AI Agent 领域的开创性项目,在 GitHub 上已获得超过 18 万星标。 与传统的聊天机器人不同,AutoGPT 能够自主地将一个宏观目标拆解为一系列子任务,并通过调用互联网搜索、读写本地文件等工具来逐步实现目标。 AutoGPT 具备强大的工具调用与环境交互能力。它能够访问互联网以获取最新信息、管理本地文件、执…

    2025年12月29日
    19100
  • 开源音视频生成新突破:MOVA模型实现电影级同步,打破Sora2闭源垄断

    今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 MOVA(MOSS-Video-and-Audio)。 作为中国首个高性能开源音视频模型,MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段,更在多语言口型同步、环境音效契合度上展现了极高的工业水准…

    3天前
    200