蚂蚁开源LingBot-World世界模型：挑战谷歌Genie 3，一张图生成10分钟稳定交互视频

2026年1月29日下午6:22 • AI产业动态 • 阅读 346

蚂蚁开源世界模型，为机器人造“元宇宙训练场”。

智东西1月29日报道，蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。

▲LingBot-World开源页面（来源：Hugging Face）

LingBot-World由一个可扩展数据引擎驱动，通过从大规模游戏环境中学习物理规律与因果关系，可以实现与生成世界的实时交互。该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均逼近谷歌Genie 3。

▲LingBot-World能力表

主页：https://technology.robbyant.com/lingbot-world
开源地址：
Hugging Face：https://huggingface.co/collections/robbyant/lingbot-world
魔搭社区：https://www.modelscope.cn/collections/Robbyant/LingBot-world
Github：https://github.com/Robbyant/lingbot-world
技术报告：https://github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf

01. 近10分钟稳定生成，镜头移开60s还能保持一致

针对视频生成中最常见的“长时漂移”问题（即生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象），LingBot-World通过多阶段训练以及并行化加速，实现了近10分钟的连续稳定无损生成，为长序列、多步骤的复杂任务训练提供支撑。

▲一致性压力测试，镜头最长移开60秒后返回，目标物体仍存在且结构一致

▲高动态环境下，镜头长时间移开后返回，车辆形态外观仍保持一致

▲镜头长时间移开后返回，房屋仍存在且结构一致

交互性能上，LingBot-World可实现约16 FPS的生成吞吐，并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角，画面随指令即时反馈。用户可以通过文本指令触发环境变化与世界事件，例如调整天气、切换画面风格或生成特定事件等，且所有变化均可在保持场景几何关系相对稳定的前提下完成。

02. 支持长程任务训练与场景多样化生成

为解决世界模型训练中高质量交互数据匮乏的问题，LingBot-World采用了混合采集策略：一方面通过清洗大规模的网络视频以覆盖多样化的场景，另一方面结合游戏采集与虚幻引擎（UE）合成管线，从渲染层直接提取无UI干扰的纯净画面，并同步记录操作指令与相机位姿，为模型学习“动作如何改变环境”提供对齐的训练信号。

得益于此，LingBot-World具备了良好的Zero-shot泛化能力。仅需输入一张真实的城市街景照片或游戏截图，模型即可生成对应的可交互视频流，无需针对单一场景进行额外训练，降低了在不同场景中的部署与使用成本。

▲机器人穿梭在城市之间

具身智能的规模化落地还面临一个核心挑战，那就是复杂长程任务的真机训练数据极度稀缺。LingBot-World凭借长时序一致性、实时交互响应，以及对“动作-环境变化”因果关系的理解，能够在数字世界中“想象”物理世界，为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。同时，LingBot-World还支持场景多样化生成，可以改变光照、摆放位置变化等，此功能也有助于提升具身智能算法在真实场景中的泛化能力。

03. 结语：蚂蚁补全物理感知拼图

蚂蚁连续发布三款“灵波”系列具身领域大模型，其通用人工智能（AGI）战略由此完成从数字世界向物理感知层面的关键延伸，也让其“基础模型-通用应用-实体交互”的全栈技术路径进一步清晰。

从行业视角看，世界模型正成为连接生成式AI与具身智能的关键桥梁。LingBot-World在长序列生成与零样本泛化方面的能力，若能在实际应用中验证，或可推动相关领域从有限场景训练向开放场景适应的演进。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/19763

蚂蚁开源LingBot-World世界模型：挑战谷歌Genie 3，一张图生成10分钟稳定交互视频

相关推荐

AutoBio：VLA模型在生物实验室的“图灵测试”——ICLR 2026新基准揭示科研自动化挑战

隐形攻击：HTML代码中的隐藏指令如何操控大模型网页总结

Google 刚发布 Gemini 3 Flash，说实话，AI 的经济模型被彻底改写了

YOLO26深度解析：十年演进，如何实现CPU推理43%加速与边缘设备实时检测

学术产业化危机：当AI顶会成为明码标价的“入学筹码”