李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

“AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”

李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

从“看照片”到“走进照片”,单 GPU 打通世界模型“最后一公里”
过去一年,生成式视频模型把“Prompt→短视频”做得惟妙惟肖,却始终面临两大痛点:

  1. 没有 3D 一致性——镜头一转,物体凭空消失或变形;
  2. 算力黑洞——4K/60 fps 交互流每秒需吐出 10 万 + Token,一张 H100 只能跑几秒。

RTFM 直接把痛点干成卖点:

  • 单 H100 实时推理,1080p 下稳定 30 fps;
  • 任意长交互,场景“永不掉线”;
  • 无需重建、无需显式网格或高斯抛雪球,2D→3D→2D 一体化完成。

李飞飞在发布会上演示了“巴黎街头一张照片→走进咖啡馆→推开后门走进塞纳河畔”的完整动线,全程无加载、无跳变,光影、反射、镜面畸变全部连续,让网友直呼“仿佛把《盗梦空间》的造梦机开源了”。

三大设计哲学:效率、可扩展、持久

  1. 效率:
  • 自回归扩散 Transformer 只做“关键帧”预测,中间帧靠轻量级插值;
  • 蒸馏 + 量化 + CUDA kernel 融合,把 30B 参数压进 24 GB 显存;
  • 动态分辨率渲染,远景 540p、近景 2K,节省 40% 算力。
  1. 可扩展:
  • 数据飞轮:已爬取 4 亿条 4K 视频,自动标注相机轨迹与光流;
  • 架构通用:同套权重既能做室内漫游,也能做城市驾驶,无需微调;
  • 算力红利:团队坚信“能用一张卡跑通,就能用一千张卡跑得更宏大”。
  1. 持久:
  • 场景哈希表常驻显存,用户离开再回来,物体位置、材质属性分毫不差;
  • 支持多人协同:同一 URL 可多客户端接入,实时看到彼此化身与操作。

技术拆解:把“图形学管线”端到端神经网络化
传统流程:多视角重建→网格/体素/高斯→材质贴图→光照→光栅化。
RTFM 流程:
输入图像 → CNN 编码 → 隐空间 3D 表征(非显式)→ 自回归扩散解码 → 新视角 2D 图像。

关键创新:

  • “视差-时间”双注意力:让网络在无显式深度图条件下,自动推断几何;
  • 反射-阴影解耦损失:单独监督镜面与漫反射,金属、玻璃、水面效果逼真;
  • 相机位姿随机掩码:训练阶段随机丢弃 30% 位姿,提升外推能力,实现“鱼眼、长焦、倾斜”自由切换。

实测:一张 tourist 照片,5 分钟生成“永不掉线”的罗马假日
量子位记者用 iPhone 拍了一张罗马广场游客照上传到 RTFM 官网 DEMO(frameboy.worldlabs.ai),系统 30 秒完成预处理,随后即可用键盘 WASD 漫游:

  • 绕到石柱背面,浮雕纹理与阳光下完全一致;
  • 走进回廊,地面大理石映出人物倒影;
  • 推开一扇在现实中并不存在的木门,可见内部暗室与光束;
  • 1 小时后重新打开链接,场景、时间戳、光照角度全部保持。

行业冲击:游戏、XR、机器人集体“狂喜”

  1. 游戏:
    传统 3A 场景需要数千名美术 + 光追农场,RTFM 让“单枪匹马做开放世界”成为可能。独立工作室 Extremely Real 已宣布下一款叙事冒险游戏直接用 RTFM 生成整座巴黎。
  2. XR:
    Apple Vision Pro 二代传将预装 RTFM Runtime,用户扫一眼客厅就能生成持久 MR 空间,虚拟家具阴影与真实窗户光源实时匹配。
  3. 机器人:
    无需预先 SLAM 建图,RTFM 可把“沿途拍到的 10 张照片”实时扩展为可导航的 3D 场景,斯坦福 IRIM 实验室已用它让无人机在 30 分钟内完成“无图”仓库巡检。

路线图与商业版图
World Labs 成立 8 个月,累计融资 2.3 亿美元,估值 10 亿,股东包括英伟达、AMD、a16z、Adobe。

  • 2025 Q4:开放 RTFM-Base(7B)API,按分钟计费;
  • 2026 Q1:推出 RTFM-Lite(4bit,RTX 4090 可跑),进军消费电子;
  • 2026 Q2:联合车企发布“世界模型即地图”高精版,宣称要把“重资产高精地图”变成“轻资产沿途拍照”。

李飞飞在公开信里写道:
“我们相信,空间智能的‘iPhone 时刻’不是更重的显卡,而是更聪明的算法。RTFM 只是序章,当世界模型被压缩到一张卡、一颗芯片、最后一条边缘指令集,物理 AI 才会真正爆发。”

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4305

(0)
上一篇 2025年10月16日 下午2:53
下一篇 2025年10月20日 下午12:16

相关推荐

  • ChatGPT千亿tokens,干掉麦肯锡5000名顾问

    魔幻啊魔幻。 全球顶级咨询公司麦肯锡,居然收到了OpenAI最近给Tokens消耗大客户颁发的奖牌。 麦肯锡自己还怪自豪的,第一时间就把奖牌po到了领英上。 等等,好像哪里不对……但凡过遍脑子,都能察觉出“这份荣耀”有点不对味—— 你花百万美金买PPT的麦肯锡,竟然是ChatGPT的大客户?! 这大概也意味着,很多机构花了数百万美元购买的战略咨询PPT,其实…

    2025年10月22日
    4100
  • Sora 2 来袭:生成20秒逼真视频,正面碾压谷歌Veo 3?

    OpenAI 正式推出新一代 AI 视频模型 Sora 2,能直接生成长达 20 秒的 1080p 高清视频,在物理真实感、可控性和音画同步方面显著提升。实测显示,其生成效果逼真,但在复杂动作和中文理解上仍有瑕疵。与竞争对手谷歌 Veo 3 相比,双方在各场景下互有胜负。同时,OpenAI 推出了类似 TikTok 的 Sora 应用,旨在建立产品生态,但其“全 AI 视频流”模式能否成功,仍有待观察。

    2025年10月1日
    10600
  • 美团视频生成模型来了!一出手就是开源SOTA

    美团推出开源视频生成模型LongCat-Video,该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平,通过技术创新实现了高质量、长时序的视频内容生成,为视频创作和AI世界模型研究提供了新的工具和思路。

    6天前
    3900
  • 具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

    近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…

    2025年10月16日
    6800
  • 开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

    上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛(IPhO)中首次达到金牌分数线,并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions,标志着开源模型在复杂物理推理能力上实现重要突破。

    2025年10月25日
    6300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注