李飞飞发布全新世界模型，单GPU就能跑！实时生成永不消逝的3D宇宙

2025年10月17日下午12:01 • AI产业动态 • 阅读 692

从“看照片”到“走进照片”，单 GPU 打通世界模型“最后一公里”
过去一年，生成式视频模型把“Prompt→短视频”做得惟妙惟肖，却始终面临两大痛点：

RTFM 直接把痛点干成卖点：

李飞飞在发布会上演示了“巴黎街头一张照片→走进咖啡馆→推开后门走进塞纳河畔”的完整动线，全程无加载、无跳变，光影、反射、镜面畸变全部连续，让网友直呼“仿佛把《盗梦空间》的造梦机开源了”。

三大设计哲学：效率、可扩展、持久

技术拆解：把“图形学管线”端到端神经网络化
传统流程：多视角重建→网格/体素/高斯→材质贴图→光照→光栅化。
RTFM 流程：
输入图像 → CNN 编码 → 隐空间 3D 表征（非显式）→ 自回归扩散解码 → 新视角 2D 图像。

关键创新：

实测：一张 tourist 照片，5 分钟生成“永不掉线”的罗马假日
量子位记者用 iPhone 拍了一张罗马广场游客照上传到 RTFM 官网 DEMO（frameboy.worldlabs.ai），系统 30 秒完成预处理，随后即可用键盘 WASD 漫游：

行业冲击：游戏、XR、机器人集体“狂喜”

游戏：
传统 3A 场景需要数千名美术 + 光追农场，RTFM 让“单枪匹马做开放世界”成为可能。独立工作室 Extremely Real 已宣布下一款叙事冒险游戏直接用 RTFM 生成整座巴黎。
XR：
Apple Vision Pro 二代传将预装 RTFM Runtime，用户扫一眼客厅就能生成持久 MR 空间，虚拟家具阴影与真实窗户光源实时匹配。
机器人：
无需预先 SLAM 建图，RTFM 可把“沿途拍到的 10 张照片”实时扩展为可导航的 3D 场景，斯坦福 IRIM 实验室已用它让无人机在 30 分钟内完成“无图”仓库巡检。

路线图与商业版图
World Labs 成立 8 个月，累计融资 2.3 亿美元，估值 10 亿，股东包括英伟达、AMD、a16z、Adobe。