蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频

蚂蚁开源世界模型,为机器人造“元宇宙训练场”。

智东西1月29日报道,蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲LingBot-World开源页面(来源:Hugging Face)

LingBot-World由一个可扩展数据引擎驱动,通过从大规模游戏环境中学习物理规律与因果关系,可以实现与生成世界的实时交互。该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均逼近谷歌Genie 3

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲LingBot-World能力表

主页:https://technology.robbyant.com/lingbot-world
开源地址
Hugging Face:https://huggingface.co/collections/robbyant/lingbot-world
魔搭社区:https://www.modelscope.cn/collections/Robbyant/LingBot-world
Github:https://github.com/Robbyant/lingbot-world
技术报告:https://github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf

01. 近10分钟稳定生成,镜头移开60s还能保持一致

针对视频生成中最常见的“长时漂移”问题(即生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象),LingBot-World通过多阶段训练以及并行化加速,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

▲一致性压力测试,镜头最长移开60秒后返回,目标物体仍存在且结构一致

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致

蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
▲镜头长时间移开后返回,房屋仍存在且结构一致

交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。用户可以通过文本指令触发环境变化与世界事件,例如调整天气、切换画面风格或生成特定事件等,且所有变化均可在保持场景几何关系相对稳定的前提下完成。

02. 支持长程任务训练与场景多样化生成

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供对齐的训练信号。

得益于此,LingBot-World具备了良好的Zero-shot泛化能力。仅需输入一张真实的城市街景照片或游戏截图,模型即可生成对应的可交互视频流,无需针对单一场景进行额外训练,降低了在不同场景中的部署与使用成本。

▲机器人穿梭在城市之间

具身智能的规模化落地还面临一个核心挑战,那就是复杂长程任务的真机训练数据极度稀缺。LingBot-World凭借长时序一致性、实时交互响应,以及对“动作-环境变化”因果关系的理解,能够在数字世界中“想象”物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。同时,LingBot-World还支持场景多样化生成,可以改变光照、摆放位置变化等,此功能也有助于提升具身智能算法在真实场景中的泛化能力

03. 结语:蚂蚁补全物理感知拼图

蚂蚁连续发布三款“灵波”系列具身领域大模型,其通用人工智能(AGI)战略由此完成从数字世界向物理感知层面的关键延伸,也让其“基础模型-通用应用-实体交互”的全栈技术路径进一步清晰。

从行业视角看,世界模型正成为连接生成式AI与具身智能的关键桥梁。LingBot-World在长序列生成与零样本泛化方面的能力,若能在实际应用中验证,或可推动相关领域从有限场景训练向开放场景适应的演进。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19763

(0)
上一篇 2026年1月29日 下午6:17
下一篇 2026年1月30日 上午6:59

相关推荐

  • 全球首个“龙虾特供”模型GLM-5-Turbo发布,智谱推出39元龙虾套餐

    全球首个“龙虾特供”模型GLM-5-Turbo发布 今日,智谱AI此前内测的神秘模型 Pony-Alpha-2 正式公布,其真实身份为全球首个面向“龙虾”(Long Context,长上下文)场景优化的专用模型 GLM-5-Turbo。 为适配长文本处理需求,智谱同步推出了配套的“龙虾套餐”服务,提供个人版与团队版选项,其中个人版套餐以39元的价格提供400…

    2天前
    13500
  • 跨越记忆鸿沟:Anthropic双智能体架构如何破解AI长时任务执行难题

    在人工智能向通用智能体演进的道路上,一个长期存在的技术瓶颈正日益凸显:如何让缺乏持久记忆的AI模型,能够像人类工程师一样,在跨越数小时甚至数天的复杂任务中保持连续性和一致性?这一挑战不仅关乎智能体的实用性,更触及了当前大模型架构的根本局限。 传统大模型智能体面临的核心困境可概括为“上下文窗口依赖症”。无论是GPT-4、Claude还是其他主流模型,其决策和推…

    2025年12月2日
    15500
  • 从统计物理到信息论:解码大模型第一性原理的三维理论框架

    2022年底ChatGPT的横空出世,标志着大模型时代的正式开启。短短三年间,从GPT系列到DeepSeek,再到Google Gemini 3的强势推出,大模型以惊人的速度迭代演进。仅在美国,AI领域的年度投资规模已超过许多国家全年GDP,这一数字背后反映的是全球对人工智能技术突破的狂热期待。然而,在技术狂欢的背后,一个根本性问题日益凸显:我们是否真正理解…

    2025年12月11日
    19500
  • 共享自主框架突破灵巧操作数据瓶颈:字节跳动Seed团队VLA策略研究深度解析

    实现通用机器人的类人灵巧操作能力,始终是机器人学领域最具挑战性的前沿课题。传统机器人系统在结构化环境中表现稳定,但面对复杂、非结构化的日常场景时,其操作灵活性、适应性和泛化能力严重不足。近年来,视觉-语言-动作(Vision-Language-Action,VLA)模型通过融合多模态感知与自然语言理解,为机器人技能学习开辟了新路径,展现出从单一任务执行向通用…

    2025年12月11日
    19100
  • 文心5.0正式版发布:2.4万亿参数原生全模态架构,登顶LMArena的“最强文科生”技术解析

    2.4万亿参数,原生全模态架构,在文本榜上“霸榜如喝水”。 在文心Moment大会上,文心大模型5.0正式版 上线。该模型参数量达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。在40余项权威基准的综合评测中,文心5.0正式版的语言与多模态理解能力稳居国际第一梯队。其音频和视觉生成能力与垂直…

    2026年1月24日
    23300