蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果:

通用的世界模型——LingBot-World。

该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与DeepMind推出的Genie 3相媲美,且在生成时长上更具优势。

LingBot-World生成的视频不仅可供观看,用户还能深度参与其中。通过键盘(WASD)和鼠标,可以实时控制视角的移动与旋转,体验类似3A游戏的交互感:

此外,智能体(Agent) 能够在生成的世界中自主规划并执行动作。用户也可以用自然语言 实时改变 世界中的内容。例如,给定一张初始图像:

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

只需输入指令如“前面放个烟花”(0-10秒)、“变成冰雪世界”(10-20秒),模型便能据此持续生成视频:

LingBot-World在生成一致性方面表现突出。例如在下面的科幻场景中,无论是远景还是近景,关键元素(如光圈)都保持了高度一致:

除了空间一致性,模型还展现出强大的时序记忆力。即使画面暂时离开了视频中的主体(如一只猫),当镜头转回时,模型仍能记住其状态并推断其在画面外的行为,使得演进过程自然流畅:

同时,LingBot-World严格遵循现实世界的物理规律。在同样的场景中,当猫咪撞到沙发时,不会出现“穿模”等不合理现象,增强了真实感:

模型发布后,在社区中引发了广泛讨论。许多观点认为,其真正的突破在于将记忆力、交互性和持续性整合到了一个统一的框架中。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

最关键的是,与闭源的Genie 3不同,LingBot-World选择了完全开源,这被社区视为对开源生态和具身智能领域的重大贡献。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

那么,LingBot-World是如何实现这些能力的呢?

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

LingBot-World是如何炼成的?

从展示的效果来看,构建世界模型面临三大核心挑战:一致性交互性实时性。其目标不仅是生成视频,更是要作为一个遵循物理规律的世界模拟器持续运行。

为实现这一目标,团队首先在数据层面进行了精心构建:
1. 混合数据引擎:收集了大量真实世界视频(含第一人称和第三人称视角),并利用虚幻引擎(Unreal Engine)合成数据。游戏引擎生成的数据自带精确的相机位姿和物理碰撞信息,是模型学习因果关系的关键。
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
2. 分层标注策略:对视频描述进行细粒度拆解:
* 叙事描述:描述视频整体情节与环境变化。
* 静态场景描述:仅描述环境,忽略动作,促使模型学会分离背景与运动。
* 密集时序描述:精确到秒的动作描述(如“第5秒向左转”)。
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

模型架构上,LingBot-World采用了三阶段进化策略

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

  • 阶段一:预训练——目标是“生成一个世界”。基于现有视频生成模型初始化,专注于获得强大的通用视频生成能力,以渲染高保真的纹理和光影。
  • 阶段二:中训练——目标是“掌握物理规律”。引入混合专家模型架构,分别负责全局结构布局与细节纹理填充。此阶段注入大量交互数据与游戏逻辑,使模型学会响应控制指令(如按下W键)。通过渐进式课程学习,模型涌现出空间记忆能力,缓解了长视频生成的遗忘问题。
  • 阶段三:后训练——目标是“实现实时性”。为提升速度,采用因果注意力机制和少步蒸馏技术,将推理过程转为自回归生成,在保证画质的同时将延迟压缩到1秒以内(16fps生成速度),实现了真正的实时可交互。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

经过上述流程,LingBot-World在与Genie 3、Mirage 2等顶尖模型的对比中,展现出明显优势。

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3 蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

尤其在长时序一致性和记忆力方面,LingBot-World做到了生成即记住

蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

蚂蚁灵波的完整布局

如果将LingBot-World与近期开源的LingBot-Depth、LingBot-VLA结合来看,可以发现蚂蚁灵波正在构建一套完整的具身智能基础设施

  1. 感知(眼睛) – LingBot-Depth:通过掩码深度建模技术,补全传感器缺失的深度信息,使机器人能更准确地感知反光、透明等复杂物体。
  2. 决策(大脑) – LingBot-VLA:基于20000小时真实世界数据训练,具备精准的操作能力和极强的泛化性,已在多个机器人平台上成功完成上百项任务,训练效率也显著提升。
  3. 环境(模拟) – LingBot-World:即本次开源的通用世界模型,为智能体提供了一个可交互、可持续、符合物理规律的仿真环境。

因为真实世界训练机器人成本高昂、过程缓慢且存在安全隐患;而 LingBot-World 能够生成无穷无尽且符合物理规律的虚拟环境。

更重要的是,感知(LingBot-Depth)、决策(LingBot-VLA)与模拟(LingBot-World)三大模块并非简单叠加,而是形成了 1+1+1 > 3 的协同效应:

  • LingBot-VLA 可以在 LingBot-World 生成的虚拟环境中进行千万次推演(Sim-to-Real),以极低成本学习物理规律。
  • LingBot-World 生成的高一致性视频可直接转化为高质量 3D 点云,作为训练数据反哺 LingBot-Depth,提升其感知精度。
  • VLA 在真实世界获得的反馈,又能优化 World 模型的物理准确性,使模拟环境更加逼真。

这构成了一个围绕具身智能的 完整技术闭环

蚂蚁灵波的战略布局由此清晰:通过将感知、决策、模拟三大核心组件全部开源,旨在为行业提供一套可复用、标准化的基础设施。

从更长远视角看,蚂蚁灵波当前聚焦的具身智能或许只是主线之一。这套基础设施的强复用性,同样适用于游戏、AIGC 乃至自动驾驶等领域。

蚂蚁灵波的这盘棋,未来很可能进一步扩大版图。

为了验证 LingBot-World 不仅是演示原型,团队还公布了 实际部署 的视频:

项目资源
* 项目主页:https://technology.robbyant.com/lingbot-world
* GitHub:https://github.com/Robbyant/lingbot-world-Tech
* 论文地址:https://github.com/Robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf
* 模型权重:
* Hugging Face:https://huggingface.co/collections/robbyant/lingbot-world
* ModelScope:https://www.modelscope.cn/collections/Robbyant/LingBot-World


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19808

(0)
上一篇 2026年1月29日 下午2:50
下一篇 2026年1月29日 下午3:58

相关推荐

  • 零代码革命:Postman AI Agent Builder一键将10万API转化为MCP服务器

    在技术领域,总有一些时刻会让人感到“魔法”般不可思议。 现在就是这样一个时刻。 Postman 悄然发布了一款 AI Agent Builder,它能够将超过 100,000 个现成的 API 一键转换为功能完备的 MCP(Model Context Protocol)服务器,整个过程无需编写任何代码。 你只需简单点击几下,下载一个 ZIP 文件,然后——你…

    2025年12月12日
    34900
  • 突破百万上下文:面壁智能SALA混合注意力架构引领端侧大模型新纪元

    最强的大模型,已经把scaling卷到了一个新维度:百万级上下文 。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风,也很快吹到了端侧。 面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构,不仅解决了…

    2026年2月11日
    9600
  • 从“我不是机器人”到隐私监控:reCAPTCHA的演化与AI训练数据伦理困境

    近日,一段关于“猫屎团”验证码的调侃视频在社交媒体上引发热议。视频中,用户需要将灰色的“猫屎团”拖入垃圾桶,并勾选“我不是猫”才能通过验证。这一看似荒诞的场景,实际上折射出图形验证码(CAPTCHA)技术演化的深层逻辑——从单纯的人机识别工具,演变为大规模数据收集机制,最终引发隐私监控的伦理争议。 验证码技术的起源可追溯至2000年代初,其全称“全自动区分计…

    2025年11月12日
    20500
  • 中国团队首创医疗AI临床安全-有效性双轨评估标准CSEDB,MedGPT全球评测夺冠

    中国团队首创医疗AI临床安全-有效性双轨评估标准CSEDB,获《npj Digital Medicine》收录 中国团队首次在全球顶尖期刊发表“大模型+医疗”领域的相关标准研究。 作为Nature体系中专注于数字医疗的旗舰期刊,《npj Digital Medicine》(JCR影响因子15.1,中科院医学大类1区Top期刊)此次收录的CSEDB研究,首次提…

    2026年1月21日
    20400
  • 破折号成瘾:AI写作风格如何暴露大模型训练数据的历史断层

    在人工智能写作领域,一个看似微不足道的标点符号——破折号——正成为揭示大模型训练数据来源与时代局限性的关键线索。用户普遍观察到,以ChatGPT为代表的AI产品在生成文本时频繁使用破折号,这种现象已从偶然特征演变为AI写作的标志性风格。OpenAI甚至将“减少破折号使用”作为产品改进功能单独发布,反映出用户对此现象的普遍关注。这一现象背后,隐藏着大模型训练数…

    2025年11月29日
    17900