世界模型 - 鲸林向海

RISE突破VLA瓶颈：组合式世界模型让机器人在想象空间完成强化学习，任务成功率提升超45%

在具身智能的发展中，视觉-语言-动作模型已成为通用操作任务的核心框架。然而，面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时，VLA模型仍面临两大根本性挑战：模仿学习在推理过程中产生的长序列误差累积问题；真机强化学习成本高昂，难以规模化部署。针对这些挑战，香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思…

2天前

64000

大模型训练

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

基础模型的能力爆发，源于海量文本的预训练。然而，文本只是人类对现实世界的一种抽象表达，是信息的有损压缩。借用柏拉图的“洞穴寓言”：语言模型擅长描述墙壁上的影子，却从未见过投射影子的实体。它们精于捕捉符号，却难以理解物理世界中高保真的规律、结构与因果。除了这一哲学局限，还存在一个现实瓶颈：高质量文本数据有限，且正逐渐枯竭。相比之下，视觉世界提供了近乎无限的…

2026年3月8日

77000

开源项目

中国团队突破空间智能核心技术：InSpatio-WorldFM开源实时3D世界模型，开启AI物理交互新纪元

AI领域最前沿的方向“世界模型”，正在经历一场深刻变革。互联网上，虚拟智能体在数字世界中灵活穿梭；现实中，具身机器人却仍受困于试验场，难以应对复杂的物理空间。这道横跨虚拟与现实的鸿沟，其核心在于智能体对空间智能感知的缺失。 2024年，空间智能这一关键赛道被正式点燃，成为全球科技竞争的焦点。其中，构建一个拥有永久一致性的3D场景，让智能体不仅能“看见”空间…

2026年3月6日

395000

AI产业动态

NVIDIA DreamZero登顶机器人基准测试：世界-动作模型如何实现性能突破？

近日，NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。 DreamZero 的核心设计思想是：在单一模型内，同步预测未来视频帧与机器人动作。这意味着，机器人在执行动作前，能够在模型内部进行“想象”，预演其行为可能引发的世界状态变化。然而，这一设计也引出了更深层…

2026年3月4日

116000

大模型评测

清华×斯坦福联手打造Ctrl-World世界模型，具身智能评测登顶全球，视频生成力压谷歌英伟达

在全球具身智能领域的权威评测 WorldArena 榜单中，由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩：具身任务能力综合排名全球第一，并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶；视频生成能力排名全球第二，仅次于阿里 Wan 2.6，超越了谷歌 Veo…

2026年2月26日

282000

AI产业动态

WorldArena：颠覆世界模型评测，从“视觉内卷”到“功能智能”的革命性突破

当世界模型生成的视频足以「以假乱真」，为何机器人依然「有眼无脑」？ 2026年2月13日，一则来自具身智能前沿的重磅消息引发学界与产业界震动：由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的 WorldArena —— 首个面向具身世界模型的「功能 + 视觉」统一评测体系，正式面向全球开…

2026年2月13日

129000

AI产业动态

英伟达DreamZero：140亿参数世界动作模型开启机器人零样本泛化新时代

驱动具身智能迈向通用领域的核心挑战是什么？我们认为，关键在于实现“跨具身迁移”。一个完善的世界模型是具身智能执行通用复杂任务的基础。然而，许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。具体而言，当前应用于机器人或智能汽车的世界模型，大多针对特定硬件平台进行设计和训练，其泛化能力有限，跨平台迁移往往依赖运气。本质上，许多机器人学习到的并非“…

2026年2月9日

133000

AI产业动态

视频生成迈向通用世界模拟器：从视觉保真到因果推理的技术演进

近年来，视频生成（Video Generation）与世界模型（World Models）已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵（Kling），视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」，促使学界与业界开始严肃探讨：能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。与…

2026年2月7日

77000

AI产业动态

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40% 由生数科技联合清华大学开源的大一统世界模型——Motus，在架构上首次将视觉-语言-动作（VLA）、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来，实现了“看-想-动”的完美闭环。项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的…

2026年2月6日

167000

AI产业动态

蚂蚁灵波开源四款具身智能模型：从物理交互出发，探索世界模型新路径

大模型的革命行将结束，即将开启的会是物理 AI 时代？上周，图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能（AGI）发表了自己的最新观点。他认为语言并不等同于智能，预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系，而如今的大语言模型（LLM）几乎无法触及这些。 LeCun 认为，真正的智能必须能像人类一样，在脑海中进行推演…

2026年2月5日

132000