李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

“AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”

李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

从“看照片”到“走进照片”,单 GPU 打通世界模型“最后一公里”
过去一年,生成式视频模型把“Prompt→短视频”做得惟妙惟肖,却始终面临两大痛点:

  1. 没有 3D 一致性——镜头一转,物体凭空消失或变形;
  2. 算力黑洞——4K/60 fps 交互流每秒需吐出 10 万 + Token,一张 H100 只能跑几秒。

RTFM 直接把痛点干成卖点:

  • 单 H100 实时推理,1080p 下稳定 30 fps;
  • 任意长交互,场景“永不掉线”;
  • 无需重建、无需显式网格或高斯抛雪球,2D→3D→2D 一体化完成。

李飞飞在发布会上演示了“巴黎街头一张照片→走进咖啡馆→推开后门走进塞纳河畔”的完整动线,全程无加载、无跳变,光影、反射、镜面畸变全部连续,让网友直呼“仿佛把《盗梦空间》的造梦机开源了”。

三大设计哲学:效率、可扩展、持久

  1. 效率:
  • 自回归扩散 Transformer 只做“关键帧”预测,中间帧靠轻量级插值;
  • 蒸馏 + 量化 + CUDA kernel 融合,把 30B 参数压进 24 GB 显存;
  • 动态分辨率渲染,远景 540p、近景 2K,节省 40% 算力。
  1. 可扩展:
  • 数据飞轮:已爬取 4 亿条 4K 视频,自动标注相机轨迹与光流;
  • 架构通用:同套权重既能做室内漫游,也能做城市驾驶,无需微调;
  • 算力红利:团队坚信“能用一张卡跑通,就能用一千张卡跑得更宏大”。
  1. 持久:
  • 场景哈希表常驻显存,用户离开再回来,物体位置、材质属性分毫不差;
  • 支持多人协同:同一 URL 可多客户端接入,实时看到彼此化身与操作。

技术拆解:把“图形学管线”端到端神经网络化
传统流程:多视角重建→网格/体素/高斯→材质贴图→光照→光栅化。
RTFM 流程:
输入图像 → CNN 编码 → 隐空间 3D 表征(非显式)→ 自回归扩散解码 → 新视角 2D 图像。

关键创新:

  • “视差-时间”双注意力:让网络在无显式深度图条件下,自动推断几何;
  • 反射-阴影解耦损失:单独监督镜面与漫反射,金属、玻璃、水面效果逼真;
  • 相机位姿随机掩码:训练阶段随机丢弃 30% 位姿,提升外推能力,实现“鱼眼、长焦、倾斜”自由切换。

实测:一张 tourist 照片,5 分钟生成“永不掉线”的罗马假日
量子位记者用 iPhone 拍了一张罗马广场游客照上传到 RTFM 官网 DEMO(frameboy.worldlabs.ai),系统 30 秒完成预处理,随后即可用键盘 WASD 漫游:

  • 绕到石柱背面,浮雕纹理与阳光下完全一致;
  • 走进回廊,地面大理石映出人物倒影;
  • 推开一扇在现实中并不存在的木门,可见内部暗室与光束;
  • 1 小时后重新打开链接,场景、时间戳、光照角度全部保持。

行业冲击:游戏、XR、机器人集体“狂喜”

  1. 游戏:
    传统 3A 场景需要数千名美术 + 光追农场,RTFM 让“单枪匹马做开放世界”成为可能。独立工作室 Extremely Real 已宣布下一款叙事冒险游戏直接用 RTFM 生成整座巴黎。
  2. XR:
    Apple Vision Pro 二代传将预装 RTFM Runtime,用户扫一眼客厅就能生成持久 MR 空间,虚拟家具阴影与真实窗户光源实时匹配。
  3. 机器人:
    无需预先 SLAM 建图,RTFM 可把“沿途拍到的 10 张照片”实时扩展为可导航的 3D 场景,斯坦福 IRIM 实验室已用它让无人机在 30 分钟内完成“无图”仓库巡检。

路线图与商业版图
World Labs 成立 8 个月,累计融资 2.3 亿美元,估值 10 亿,股东包括英伟达、AMD、a16z、Adobe。

  • 2025 Q4:开放 RTFM-Base(7B)API,按分钟计费;
  • 2026 Q1:推出 RTFM-Lite(4bit,RTX 4090 可跑),进军消费电子;
  • 2026 Q2:联合车企发布“世界模型即地图”高精版,宣称要把“重资产高精地图”变成“轻资产沿途拍照”。

李飞飞在公开信里写道:
“我们相信,空间智能的‘iPhone 时刻’不是更重的显卡,而是更聪明的算法。RTFM 只是序章,当世界模型被压缩到一张卡、一颗芯片、最后一条边缘指令集,物理 AI 才会真正爆发。”

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4305

(0)
上一篇 2025年10月17日 上午5:02
下一篇 2025年10月17日 下午12:19

相关推荐

  • 昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

    昆仑天工开源SkyReels-V3:多模态视频生成模型实现技术突破 近日,昆仑天工正式宣布开源其多模态视频生成模型 SkyReels-V3。该模型在文生视频、图生视频、视频延长及虚拟形象生成等多个维度展现出强大能力,致力于解决AI生成视频内容在真实性、连贯性与物理合理性方面的长期挑战。 多模态生成能力实测 SkyReels-V3支持从图像生成动态视频。以下测…

    2026年1月29日
    18500
  • Canvas-to-Image:统一画布框架如何重塑组合式图像生成范式

    在人工智能驱动的图像生成领域,控制性与创造性之间的平衡一直是核心挑战。传统方法通常采用分散式控制架构,将身份参考、空间布局、姿态线稿等不同类型的控制信息通过独立通道输入模型,导致创作流程割裂且效率低下。Canvas-to-Image框架的出现,标志着组合式图像生成技术迈入了一个全新的阶段——它通过统一画布设计,将异构控制信号整合到同一像素空间,实现了从多入口…

    2025年12月9日
    22800
  • 千问AI Agent:从对话到任务执行的革命性跃迁,揭秘其核心技术架构与生态协同

    引言:一场人机交互的革命性跃迁 2026年1月15日,阿里旗下千问APP的重磅升级,为全球人工智能产业投下了一颗“重磅炸弹”。当日,千问APP正式上线全新AI Agent功能——“任务助理”,全面接入淘宝、支付宝、飞猪、高德等阿里系生态内超400项服务功能,在全球范围内首次实现点外卖、网络购物、机票预订等AI购物功能的全量用户开放测试。 这一举措不仅让千问A…

    2026年1月21日
    35800
  • LangChain创始人深度解析:AI智能体沙盒架构的两种核心模式与安全实践

    AI智能体需要执行代码、安装软件包、访问文件,这些操作必须在与主机系统隔离的工作空间中进行,以防止访问敏感凭证、文件或网络资源。沙盒提供了这种必要的隔离。 LangChain创始人Harrison Chase近期分析了AI智能体与沙盒集成的架构问题,指出目前存在两种核心架构模式:智能体在沙盒内运行,或者智能体在外部运行、将沙盒作为工具调用。 模式一:智能体在…

    2026年2月11日
    24100
  • 闲置手机变身AI主机:三大开源项目带你玩转端侧OpenClaw部署

    最近,在电脑或云端部署 OpenClaw 的方案已屡见不鲜,许多厂商甚至宣称能在一分钟内完成部署。此前介绍的 Docker 版本也极为便捷。 今天,我们将介绍几个另辟蹊径的项目,它们专注于在端侧设备上部署 OpenClaw。 25美元手机跑OpenClaw 开发者 Marshall Richards 在 2 月 7 日展示了一项有趣的实验:在一台价值 25 …

    2026年2月9日
    1.1K00

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注