世界模型

  • NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

    近日,NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。 DreamZero 的核心设计思想是:在单一模型内,同步预测未来视频帧与机器人动作。这意味着,机器人在执行动作前,能够在模型内部进行“想象”,预演其行为可能引发的世界状态变化。 然而,这一设计也引出了更深层…

    2026年3月4日
    45300
  • 清华×斯坦福联手打造Ctrl-World世界模型,具身智能评测登顶全球,视频生成力压谷歌英伟达

    在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩: 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶; 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo…

    2026年2月26日
    56800
  • WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的革命性突破

    当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」? 2026年2月13日,一则来自具身智能前沿的重磅消息引发学界与产业界震动:由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的 WorldArena —— 首个面向具身世界模型的「功能 + 视觉」统一评测体系,正式面向全球开…

    2026年2月13日
    55000
  • 英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

    驱动具身智能迈向通用领域的核心挑战是什么? 我们认为,关键在于实现“跨具身迁移”。 一个完善的世界模型是具身智能执行通用复杂任务的基础。然而,许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。 具体而言,当前应用于机器人或智能汽车的世界模型,大多针对特定硬件平台进行设计和训练,其泛化能力有限,跨平台迁移往往依赖运气。 本质上,许多机器人学习到的并非“…

    2026年2月9日
    44600
  • 视频生成迈向通用世界模拟器:从视觉保真到因果推理的技术演进

    近年来,视频生成(Video Generation)与世界模型(World Models)已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」,促使学界与业界开始严肃探讨:能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。 与…

    2026年2月7日
    50300
  • 清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

    清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40% 由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。 项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的…

    2026年2月6日
    72300
  • 蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

    大模型的革命行将结束,即将开启的会是物理 AI 时代? 上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。 LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演…

    2026年2月5日
    48500
  • 像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

    让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…

    2026年2月2日
    57100
  • 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

    一场押注AI未来的技术豪赌。 北京时间1月29日,北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊。这是继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇围绕多模态大模型路线的Nature论文。 Nature编辑在点评中指出:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,…

    2026年2月1日
    69100
  • 谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

    谷歌世界模型,再一次惊艳了所有人! 今天一早,谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」,允许用户创建、编辑并探索虚拟世界。 在世界模型 Genie 3 之外,Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。 去年 8 月…

    2026年1月30日
    31500