蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频

蚂蚁开源世界模型,为机器人造“元宇宙训练场”。

智东西1月29日报道,蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲LingBot-World开源页面(来源:Hugging Face)

LingBot-World由一个可扩展数据引擎驱动,通过从大规模游戏环境中学习物理规律与因果关系,可以实现与生成世界的实时交互。该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均逼近谷歌Genie 3

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲LingBot-World能力表

主页:https://technology.robbyant.com/lingbot-world
开源地址
Hugging Face:https://huggingface.co/collections/robbyant/lingbot-world
魔搭社区:https://www.modelscope.cn/collections/Robbyant/LingBot-world
Github:https://github.com/Robbyant/lingbot-world
技术报告:https://github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf

01. 近10分钟稳定生成,镜头移开60s还能保持一致

针对视频生成中最常见的“长时漂移”问题(即生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象),LingBot-World通过多阶段训练以及并行化加速,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

▲一致性压力测试,镜头最长移开60秒后返回,目标物体仍存在且结构一致

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲镜头长时间移开后返回,房屋仍存在且结构一致

交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。用户可以通过文本指令触发环境变化与世界事件,例如调整天气、切换画面风格或生成特定事件等,且所有变化均可在保持场景几何关系相对稳定的前提下完成。

02. 支持长程任务训练与场景多样化生成

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供对齐的训练信号。

得益于此,LingBot-World具备了良好的Zero-shot泛化能力。仅需输入一张真实的城市街景照片或游戏截图,模型即可生成对应的可交互视频流,无需针对单一场景进行额外训练,降低了在不同场景中的部署与使用成本。

▲机器人穿梭在城市之间

具身智能的规模化落地还面临一个核心挑战,那就是复杂长程任务的真机训练数据极度稀缺。LingBot-World凭借长时序一致性、实时交互响应,以及对“动作-环境变化”因果关系的理解,能够在数字世界中“想象”物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。同时,LingBot-World还支持场景多样化生成,可以改变光照、摆放位置变化等,此功能也有助于提升具身智能算法在真实场景中的泛化能力

03. 结语:蚂蚁补全物理感知拼图

蚂蚁连续发布三款“灵波”系列具身领域大模型,其通用人工智能(AGI)战略由此完成从数字世界向物理感知层面的关键延伸,也让其“基础模型-通用应用-实体交互”的全栈技术路径进一步清晰。

从行业视角看,世界模型正成为连接生成式AI与具身智能的关键桥梁。LingBot-World在长序列生成与零样本泛化方面的能力,若能在实际应用中验证,或可推动相关领域从有限场景训练向开放场景适应的演进。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19763

(0)
上一篇 2026年1月29日 下午6:17
下一篇 2026年1月30日 上午6:59

相关推荐

  • AutoBio:VLA模型在生物实验室的“图灵测试”——ICLR 2026新基准揭示科研自动化挑战

    现有视觉-语言-动作模型的研究和基准测试多集中于家庭场景,缺乏对专业科学场景的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂等特点,是评估VLA模型精准操作、视觉推理和指令遵循能力的理想场景。 近期,来自香港大学MMLAB与上海交通大学的研究团队提出了AutoBio,一个面向数字化生物实验室的机器人仿真系统与基准测试平台。该工作已被ICL…

    2026年2月20日
    35400
  • 隐形攻击:HTML代码中的隐藏指令如何操控大模型网页总结

    在人工智能工具日益普及的今天,网页内容自动总结已成为许多用户获取信息的便捷方式。然而,一项来自印度马尼帕尔大学的最新研究揭示了一个令人不安的安全漏洞:攻击者可以通过在HTML代码中植入隐形元素,向大语言模型(LLM)传递隐藏指令,从而操控其总结输出,而用户对此毫无察觉。 这项研究系统地探讨了LLM处理网页内容时的潜在风险。当前,许多AI工具(如浏览器插件、自…

    AI产业动态 2025年9月23日
    38600
  • Google 刚发布 Gemini 3 Flash,说实话,AI 的经济模型被彻底改写了

    Google 刚发布了 Gemini 3 Flash,老实说?AI 经济学被改写了。 一款“快”模型如何重画价格-性能曲线 你今天早上打开 Gemini app,总觉得哪儿不一样。更快,更锐利。你可能都没注意到更新提示。 Google 把默认模型整个换了。全球范围。你睡觉的时候它就完成了。 这可不常见。公司一般不会一夜之间给几百万个应用换“发动机”。通常会先…

    2026年1月3日
    41500
  • YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测

    关键词:YOLO26、YOLO架构演进、单次检测算法(YOLO)、目标检测、计算机视觉、深度学习 十年来,单次检测算法(YOLO,You Only Look Once)一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点,并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下: 核心改进项 解…

    2026年2月18日
    1.4K00
  • 学术产业化危机:当AI顶会成为明码标价的“入学筹码”

    在人工智能技术迅猛发展的当下,一个令人担忧的现象正在学术圈蔓延:商业机构将学术研究包装成可量产的“产品”,通过付费辅导班的形式,将顶级学术会议论文变为明码标价的“入学筹码”。这不仅严重稀释了学术研究的含金量,挤占了宝贵的学术资源,更可能引发深层次的学术信任危机。香港大学计算与数据科学学院院长马毅(网名“毅马当闲”)在微博中尖锐指出:“顶会规模化后,已基本失去…

    2025年12月8日
    32500