李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

“AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”

李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

从“看照片”到“走进照片”,单 GPU 打通世界模型“最后一公里”
过去一年,生成式视频模型把“Prompt→短视频”做得惟妙惟肖,却始终面临两大痛点:

  1. 没有 3D 一致性——镜头一转,物体凭空消失或变形;
  2. 算力黑洞——4K/60 fps 交互流每秒需吐出 10 万 + Token,一张 H100 只能跑几秒。

RTFM 直接把痛点干成卖点:

  • 单 H100 实时推理,1080p 下稳定 30 fps;
  • 任意长交互,场景“永不掉线”;
  • 无需重建、无需显式网格或高斯抛雪球,2D→3D→2D 一体化完成。

李飞飞在发布会上演示了“巴黎街头一张照片→走进咖啡馆→推开后门走进塞纳河畔”的完整动线,全程无加载、无跳变,光影、反射、镜面畸变全部连续,让网友直呼“仿佛把《盗梦空间》的造梦机开源了”。

三大设计哲学:效率、可扩展、持久

  1. 效率:
  • 自回归扩散 Transformer 只做“关键帧”预测,中间帧靠轻量级插值;
  • 蒸馏 + 量化 + CUDA kernel 融合,把 30B 参数压进 24 GB 显存;
  • 动态分辨率渲染,远景 540p、近景 2K,节省 40% 算力。
  1. 可扩展:
  • 数据飞轮:已爬取 4 亿条 4K 视频,自动标注相机轨迹与光流;
  • 架构通用:同套权重既能做室内漫游,也能做城市驾驶,无需微调;
  • 算力红利:团队坚信“能用一张卡跑通,就能用一千张卡跑得更宏大”。
  1. 持久:
  • 场景哈希表常驻显存,用户离开再回来,物体位置、材质属性分毫不差;
  • 支持多人协同:同一 URL 可多客户端接入,实时看到彼此化身与操作。

技术拆解:把“图形学管线”端到端神经网络化
传统流程:多视角重建→网格/体素/高斯→材质贴图→光照→光栅化。
RTFM 流程:
输入图像 → CNN 编码 → 隐空间 3D 表征(非显式)→ 自回归扩散解码 → 新视角 2D 图像。

关键创新:

  • “视差-时间”双注意力:让网络在无显式深度图条件下,自动推断几何;
  • 反射-阴影解耦损失:单独监督镜面与漫反射,金属、玻璃、水面效果逼真;
  • 相机位姿随机掩码:训练阶段随机丢弃 30% 位姿,提升外推能力,实现“鱼眼、长焦、倾斜”自由切换。

实测:一张 tourist 照片,5 分钟生成“永不掉线”的罗马假日
量子位记者用 iPhone 拍了一张罗马广场游客照上传到 RTFM 官网 DEMO(frameboy.worldlabs.ai),系统 30 秒完成预处理,随后即可用键盘 WASD 漫游:

  • 绕到石柱背面,浮雕纹理与阳光下完全一致;
  • 走进回廊,地面大理石映出人物倒影;
  • 推开一扇在现实中并不存在的木门,可见内部暗室与光束;
  • 1 小时后重新打开链接,场景、时间戳、光照角度全部保持。

行业冲击:游戏、XR、机器人集体“狂喜”

  1. 游戏:
    传统 3A 场景需要数千名美术 + 光追农场,RTFM 让“单枪匹马做开放世界”成为可能。独立工作室 Extremely Real 已宣布下一款叙事冒险游戏直接用 RTFM 生成整座巴黎。
  2. XR:
    Apple Vision Pro 二代传将预装 RTFM Runtime,用户扫一眼客厅就能生成持久 MR 空间,虚拟家具阴影与真实窗户光源实时匹配。
  3. 机器人:
    无需预先 SLAM 建图,RTFM 可把“沿途拍到的 10 张照片”实时扩展为可导航的 3D 场景,斯坦福 IRIM 实验室已用它让无人机在 30 分钟内完成“无图”仓库巡检。

路线图与商业版图
World Labs 成立 8 个月,累计融资 2.3 亿美元,估值 10 亿,股东包括英伟达、AMD、a16z、Adobe。

  • 2025 Q4:开放 RTFM-Base(7B)API,按分钟计费;
  • 2026 Q1:推出 RTFM-Lite(4bit,RTX 4090 可跑),进军消费电子;
  • 2026 Q2:联合车企发布“世界模型即地图”高精版,宣称要把“重资产高精地图”变成“轻资产沿途拍照”。

李飞飞在公开信里写道:
“我们相信,空间智能的‘iPhone 时刻’不是更重的显卡,而是更聪明的算法。RTFM 只是序章,当世界模型被压缩到一张卡、一颗芯片、最后一条边缘指令集,物理 AI 才会真正爆发。”

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/4305

(0)
上一篇 2025年10月17日 上午5:02
下一篇 2025年10月17日 下午12:19

相关推荐

  • FlashWorld:秒级高质量3D场景生成技术突破,开源模型性能超越闭源竞品

    近日,厦门大学与腾讯联合发布的研究论文《FlashWorld: High-quality 3D Scene Generation within Seconds》在学术界和工业界引发广泛关注。该论文不仅登上Huggingface Daily Paper榜单首位,更获得包括AK、Midjourney创始人、SuperSplat创始人在内的多位AI领域专家在X平台…

    2025年10月30日
    33700
  • 2026年AI算力产业链全景解析:从芯片到冷却的万亿级市场机遇

    2026年算力景气度持续上行。 微软、谷歌、Meta、亚马逊等海外大厂对2026年资本开支指引乐观,我们预计2025年、2026年四家大厂资本开支总和分别为4065、5964亿美元,分别同比+46%、47%,且用于投资AI算力及基础设施的比例有望持续提升。 目前,海外大厂仍以采购英伟达AI芯片为主,2026年AMD、海外大厂自研芯片有望快速放量。 互联侧:光…

    2026年1月22日
    1.8K00
  • Meta引领AI绩效革命:从工具依赖到能力量化的职场范式重构

    在硅谷的科技浪潮中,Meta近期宣布的一项内部政策变革,正引发业界对人工智能与职场生态关系的深度思考。该公司计划从2026年起,将AI使用情况正式纳入员工绩效考核体系,这不仅是技术应用的简单延伸,更是对现代工作价值评估机制的一次结构性重塑。 这一决策的核心逻辑在于构建“AI评估AI使用”的闭环系统:员工通过AI工具提升工作效率,而公司则通过AI系统量化员工对…

    2025年11月17日
    38900
  • 昆仑万维SkyReels:多模态AI视频创作平台的范式革新与全链路布局

    在AI视频生成技术快速迭代的当下,行业竞争已从单一模型性能比拼,转向更全面的创作生态构建。近期,昆仑万维正式推出全新一站式多模态AI视频创作平台SkyReels,并同步发布SkyReels V3视频生成模型,标志着国内AI视频赛道正从“工具化”向“平台化”深度演进。 从技术演进路径来看,AI视频生成经历了三个关键阶段:早期基于扩散模型的单帧生成、中期时序一致…

    2025年11月4日
    44400
  • 智算中心建设蓝图:2026年规划方案与关键技术解析

    一、前言 智算中心的建设需要大量的资金投入,涵盖数据存储设备、计算资源、网络设施以及人工智能模型的开发与优化。尤其在初期阶段,其运营成本较高,特别是电力和冷却系统的需求。因此,如何有效降低长期运营成本并确保投资回报,是企业决策中必须审慎考量的核心问题。 智算中心的建设背景,既根植于持续的技术进步与不断变化的市场需求,也与国家发展战略及产业转型升级紧密相连。随…

    2026年2月1日
    93500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注