李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

“AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”

李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

从“看照片”到“走进照片”,单 GPU 打通世界模型“最后一公里”
过去一年,生成式视频模型把“Prompt→短视频”做得惟妙惟肖,却始终面临两大痛点:

  1. 没有 3D 一致性——镜头一转,物体凭空消失或变形;
  2. 算力黑洞——4K/60 fps 交互流每秒需吐出 10 万 + Token,一张 H100 只能跑几秒。

RTFM 直接把痛点干成卖点:

  • 单 H100 实时推理,1080p 下稳定 30 fps;
  • 任意长交互,场景“永不掉线”;
  • 无需重建、无需显式网格或高斯抛雪球,2D→3D→2D 一体化完成。

李飞飞在发布会上演示了“巴黎街头一张照片→走进咖啡馆→推开后门走进塞纳河畔”的完整动线,全程无加载、无跳变,光影、反射、镜面畸变全部连续,让网友直呼“仿佛把《盗梦空间》的造梦机开源了”。

三大设计哲学:效率、可扩展、持久

  1. 效率:
  • 自回归扩散 Transformer 只做“关键帧”预测,中间帧靠轻量级插值;
  • 蒸馏 + 量化 + CUDA kernel 融合,把 30B 参数压进 24 GB 显存;
  • 动态分辨率渲染,远景 540p、近景 2K,节省 40% 算力。
  1. 可扩展:
  • 数据飞轮:已爬取 4 亿条 4K 视频,自动标注相机轨迹与光流;
  • 架构通用:同套权重既能做室内漫游,也能做城市驾驶,无需微调;
  • 算力红利:团队坚信“能用一张卡跑通,就能用一千张卡跑得更宏大”。
  1. 持久:
  • 场景哈希表常驻显存,用户离开再回来,物体位置、材质属性分毫不差;
  • 支持多人协同:同一 URL 可多客户端接入,实时看到彼此化身与操作。

技术拆解:把“图形学管线”端到端神经网络化
传统流程:多视角重建→网格/体素/高斯→材质贴图→光照→光栅化。
RTFM 流程:
输入图像 → CNN 编码 → 隐空间 3D 表征(非显式)→ 自回归扩散解码 → 新视角 2D 图像。

关键创新:

  • “视差-时间”双注意力:让网络在无显式深度图条件下,自动推断几何;
  • 反射-阴影解耦损失:单独监督镜面与漫反射,金属、玻璃、水面效果逼真;
  • 相机位姿随机掩码:训练阶段随机丢弃 30% 位姿,提升外推能力,实现“鱼眼、长焦、倾斜”自由切换。

实测:一张 tourist 照片,5 分钟生成“永不掉线”的罗马假日
量子位记者用 iPhone 拍了一张罗马广场游客照上传到 RTFM 官网 DEMO(frameboy.worldlabs.ai),系统 30 秒完成预处理,随后即可用键盘 WASD 漫游:

  • 绕到石柱背面,浮雕纹理与阳光下完全一致;
  • 走进回廊,地面大理石映出人物倒影;
  • 推开一扇在现实中并不存在的木门,可见内部暗室与光束;
  • 1 小时后重新打开链接,场景、时间戳、光照角度全部保持。

行业冲击:游戏、XR、机器人集体“狂喜”

  1. 游戏:
    传统 3A 场景需要数千名美术 + 光追农场,RTFM 让“单枪匹马做开放世界”成为可能。独立工作室 Extremely Real 已宣布下一款叙事冒险游戏直接用 RTFM 生成整座巴黎。
  2. XR:
    Apple Vision Pro 二代传将预装 RTFM Runtime,用户扫一眼客厅就能生成持久 MR 空间,虚拟家具阴影与真实窗户光源实时匹配。
  3. 机器人:
    无需预先 SLAM 建图,RTFM 可把“沿途拍到的 10 张照片”实时扩展为可导航的 3D 场景,斯坦福 IRIM 实验室已用它让无人机在 30 分钟内完成“无图”仓库巡检。

路线图与商业版图
World Labs 成立 8 个月,累计融资 2.3 亿美元,估值 10 亿,股东包括英伟达、AMD、a16z、Adobe。

  • 2025 Q4:开放 RTFM-Base(7B)API,按分钟计费;
  • 2026 Q1:推出 RTFM-Lite(4bit,RTX 4090 可跑),进军消费电子;
  • 2026 Q2:联合车企发布“世界模型即地图”高精版,宣称要把“重资产高精地图”变成“轻资产沿途拍照”。

李飞飞在公开信里写道:
“我们相信,空间智能的‘iPhone 时刻’不是更重的显卡,而是更聪明的算法。RTFM 只是序章,当世界模型被压缩到一张卡、一颗芯片、最后一条边缘指令集,物理 AI 才会真正爆发。”

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4305

(0)
上一篇 2025年10月17日 上午5:02
下一篇 2025年10月17日 下午12:19

相关推荐

  • 数学圣殿数字化:IHES Library如何重塑全球数学教育生态

    在人工智能浪潮席卷全球的当下,数学作为基础科学的基石地位愈发凸显。近日,茶思屋科技上线的IHES Library项目,将法国高等科学研究所(Institut des Hautes Études Scientifiques)这座数学圣殿的2369个学术视频资源数字化开放,标志着顶尖数学教育资源普惠化迈出了关键一步。这一举措不仅是对传统学术传播模式的革新,更可能…

    2025年11月12日
    8600
  • 腾讯青云奖学金首秀:姚顺雨亲颁百万奖金,揭秘AI人才培养新战略

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 来围观腾讯青云奖学金颁奖,竟然偶遇了姚顺雨。 这位27岁的腾讯首席AI科学家,在腾讯大楼的线下公开亮相,不是发布重磅产品,也不是解读战略布局——而是给一群青年研究者颁发青云奖学金。 上一次他在公开场合露面还是在AGI-Next前沿峰会上。这波在腾讯的首秀确实“不按常理出牌”。 为更值得的探索 青云奖学金是…

    1天前
    300
  • 隐形攻击:HTML代码中的隐藏指令如何操控大模型网页总结

    在人工智能工具日益普及的今天,网页内容自动总结已成为许多用户获取信息的便捷方式。然而,一项来自印度马尼帕尔大学的最新研究揭示了一个令人不安的安全漏洞:攻击者可以通过在HTML代码中植入隐形元素,向大语言模型(LLM)传递隐藏指令,从而操控其总结输出,而用户对此毫无察觉。 这项研究系统地探讨了LLM处理网页内容时的潜在风险。当前,许多AI工具(如浏览器插件、自…

    AI产业动态 2025年9月23日
    8500
  • 移动传感器隐私防护新突破:PATN框架实现实时对抗扰动与数据保真双赢

    在移动互联网时代,智能手机已成为人们日常生活中不可或缺的智能终端。移动应用通过Android和iOS系统接口获取加速度计、陀螺仪等运动传感器数据,这些数据支撑了活动识别、计步、手势交互、游戏控制、健康监测等众多核心功能,构成了现代移动服务的技术基石。然而,传感器数据的高度细粒度特性在带来丰富应用可能性的同时,也埋下了严重的隐私安全隐患。近年来多项研究表明,看…

    2025年12月8日
    9300
  • 从数据闭环到训练闭环:理想汽车世界模型如何重塑自动驾驶AI范式

    近期,人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出,AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”,强调需要为现实世界任务开发新的评估体系,并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下,自动驾驶作为AI技术落地的前沿阵地,其范…

    2025年10月31日
    7500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注