世界模型

  • RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

    在具身智能的发展中,视觉-语言-动作模型已成为通用操作任务的核心框架。然而,面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时,VLA模型仍面临两大根本性挑战: 模仿学习在推理过程中产生的长序列误差累积问题; 真机强化学习成本高昂,难以规模化部署。 针对这些挑战,香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思…

    2天前
    6400
  • 超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

    基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…

    2026年3月8日
    7700
  • 中国团队突破空间智能核心技术:InSpatio-WorldFM开源实时3D世界模型,开启AI物理交互新纪元

    AI领域最前沿的方向“世界模型”,正在经历一场深刻变革。 互联网上,虚拟智能体在数字世界中灵活穿梭;现实中,具身机器人却仍受困于试验场,难以应对复杂的物理空间。这道横跨虚拟与现实的鸿沟,其核心在于智能体对空间智能感知的缺失。 2024年,空间智能这一关键赛道被正式点燃,成为全球科技竞争的焦点。其中,构建一个拥有永久一致性的3D场景,让智能体不仅能“看见”空间…

    2026年3月6日
    39500
  • NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

    近日,NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。 DreamZero 的核心设计思想是:在单一模型内,同步预测未来视频帧与机器人动作。这意味着,机器人在执行动作前,能够在模型内部进行“想象”,预演其行为可能引发的世界状态变化。 然而,这一设计也引出了更深层…

    2026年3月4日
    11600
  • 清华×斯坦福联手打造Ctrl-World世界模型,具身智能评测登顶全球,视频生成力压谷歌英伟达

    在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩: 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶; 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo…

    2026年2月26日
    28200
  • WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的革命性突破

    当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」? 2026年2月13日,一则来自具身智能前沿的重磅消息引发学界与产业界震动:由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的 WorldArena —— 首个面向具身世界模型的「功能 + 视觉」统一评测体系,正式面向全球开…

    2026年2月13日
    12900
  • 英伟达DreamZero:140亿参数世界动作模型开启机器人零样本泛化新时代

    驱动具身智能迈向通用领域的核心挑战是什么? 我们认为,关键在于实现“跨具身迁移”。 一个完善的世界模型是具身智能执行通用复杂任务的基础。然而,许多现有的世界模型并不具备我们所期望的强大泛化与迁移能力。 具体而言,当前应用于机器人或智能汽车的世界模型,大多针对特定硬件平台进行设计和训练,其泛化能力有限,跨平台迁移往往依赖运气。 本质上,许多机器人学习到的并非“…

    2026年2月9日
    13300
  • 视频生成迈向通用世界模拟器:从视觉保真到因果推理的技术演进

    近年来,视频生成(Video Generation)与世界模型(World Models)已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」,促使学界与业界开始严肃探讨:能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。 与…

    2026年2月7日
    7700
  • 清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

    清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40% 由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。 项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的…

    2026年2月6日
    16700
  • 蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

    大模型的革命行将结束,即将开启的会是物理 AI 时代? 上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。 LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演…

    2026年2月5日
    13200