世界模型 - 鲸林向海

NVIDIA DreamZero登顶机器人基准测试：世界-动作模型如何实现性能突破？

近日，NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。 DreamZero 的核心设计思想是：在单一模型内，同步预测未来视频帧与机器人动作。这意味着，机器人在执行动作前，能够在模型内部进行“想象”，预演其行为可能引发的世界状态变化。然而，这一设计也引出了更深层…

2026年3月4日

453000

大模型评测

清华×斯坦福联手打造Ctrl-World世界模型，具身智能评测登顶全球，视频生成力压谷歌英伟达

在全球具身智能领域的权威评测 WorldArena 榜单中，由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩：具身任务能力综合排名全球第一，并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶；视频生成能力排名全球第二，仅次于阿里 Wan 2.6，超越了谷歌 Veo…

2026年2月26日

568000

AI产业动态

WorldArena：颠覆世界模型评测，从“视觉内卷”到“功能智能”的革命性突破

当世界模型生成的视频足以「以假乱真」，为何机器人依然「有眼无脑」？ 2026年2月13日，一则来自具身智能前沿的重磅消息引发学界与产业界震动：由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的 WorldArena —— 首个面向具身世界模型的「功能 + 视觉」统一评测体系，正式面向全球开…

2026年2月13日

550000

AI产业动态

英伟达DreamZero：140亿参数世界动作模型开启机器人零样本泛化新时代

驱动具身智能迈向通用领域的核心挑战是什么？我们认为，关键在于实现“跨具身迁移”。一个完善的世界模型是具身智能执行通用复杂任务的基础。然而，许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。具体而言，当前应用于机器人或智能汽车的世界模型，大多针对特定硬件平台进行设计和训练，其泛化能力有限，跨平台迁移往往依赖运气。本质上，许多机器人学习到的并非“…

2026年2月9日

446000

AI产业动态

视频生成迈向通用世界模拟器：从视觉保真到因果推理的技术演进

近年来，视频生成（Video Generation）与世界模型（World Models）已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵（Kling），视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」，促使学界与业界开始严肃探讨：能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。与…

2026年2月7日

503000

AI产业动态

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40% 由生数科技联合清华大学开源的大一统世界模型——Motus，在架构上首次将视觉-语言-动作（VLA）、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来，实现了“看-想-动”的完美闭环。项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的…

2026年2月6日

723000

AI产业动态

蚂蚁灵波开源四款具身智能模型：从物理交互出发，探索世界模型新路径

大模型的革命行将结束，即将开启的会是物理 AI 时代？上周，图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能（AGI）发表了自己的最新观点。他认为语言并不等同于智能，预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系，而如今的大语言模型（LLM）几乎无法触及这些。 LeCun 认为，真正的智能必须能像人类一样，在脑海中进行推演…

2026年2月5日

485000

AI产业动态

像开发软件一样造世界，Agent2World来了，把世界模型做成可运行的符号环境

让模型真正“能行动”，往往需要一个可执行、可验证的符号世界模型（Symbolic World Model）。它并非抽象的文字描述，而是能被规划器或执行器直接调用的形式化定义，例如PDDL领域/问题，或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”，我们就能在同一套约束下进行推演、测试与复现：模型不再停留在“会说”，而是能回答“如果我这样做，会发生什…

2026年2月2日

571000

AI产业动态

智源Emu3登Nature：统一多模态的“世界模型”路线如何颠覆AI未来？

一场押注AI未来的技术豪赌。北京时间1月29日，北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊。这是继DeepSeek之后第二个达成此成就的中国大模型团队研究成果，也是中国首篇围绕多模态大模型路线的Nature论文。 Nature编辑在点评中指出：“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习，…

2026年2月1日

691000

AI产业动态

谷歌开放世界模型Genie 3：AI游戏创作门槛归零，沉浸式虚拟世界一键生成

谷歌世界模型，再一次惊艳了所有人！今天一早，谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」，允许用户创建、编辑并探索虚拟世界。在世界模型 Genie 3 之外，Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。去年 8 月…

2026年1月30日

315000