
从“看照片”到“走进照片”,单 GPU 打通世界模型“最后一公里”
过去一年,生成式视频模型把“Prompt→短视频”做得惟妙惟肖,却始终面临两大痛点:
- 没有 3D 一致性——镜头一转,物体凭空消失或变形;
- 算力黑洞——4K/60 fps 交互流每秒需吐出 10 万 + Token,一张 H100 只能跑几秒。
RTFM 直接把痛点干成卖点:
- 单 H100 实时推理,1080p 下稳定 30 fps;
- 任意长交互,场景“永不掉线”;
- 无需重建、无需显式网格或高斯抛雪球,2D→3D→2D 一体化完成。
李飞飞在发布会上演示了“巴黎街头一张照片→走进咖啡馆→推开后门走进塞纳河畔”的完整动线,全程无加载、无跳变,光影、反射、镜面畸变全部连续,让网友直呼“仿佛把《盗梦空间》的造梦机开源了”。
三大设计哲学:效率、可扩展、持久
- 效率:
- 自回归扩散 Transformer 只做“关键帧”预测,中间帧靠轻量级插值;
- 蒸馏 + 量化 + CUDA kernel 融合,把 30B 参数压进 24 GB 显存;
- 动态分辨率渲染,远景 540p、近景 2K,节省 40% 算力。
- 可扩展:
- 数据飞轮:已爬取 4 亿条 4K 视频,自动标注相机轨迹与光流;
- 架构通用:同套权重既能做室内漫游,也能做城市驾驶,无需微调;
- 算力红利:团队坚信“能用一张卡跑通,就能用一千张卡跑得更宏大”。
- 持久:
- 场景哈希表常驻显存,用户离开再回来,物体位置、材质属性分毫不差;
- 支持多人协同:同一 URL 可多客户端接入,实时看到彼此化身与操作。
技术拆解:把“图形学管线”端到端神经网络化
传统流程:多视角重建→网格/体素/高斯→材质贴图→光照→光栅化。
RTFM 流程:
输入图像 → CNN 编码 → 隐空间 3D 表征(非显式)→ 自回归扩散解码 → 新视角 2D 图像。
关键创新:
- “视差-时间”双注意力:让网络在无显式深度图条件下,自动推断几何;
- 反射-阴影解耦损失:单独监督镜面与漫反射,金属、玻璃、水面效果逼真;
- 相机位姿随机掩码:训练阶段随机丢弃 30% 位姿,提升外推能力,实现“鱼眼、长焦、倾斜”自由切换。
实测:一张 tourist 照片,5 分钟生成“永不掉线”的罗马假日
量子位记者用 iPhone 拍了一张罗马广场游客照上传到 RTFM 官网 DEMO(frameboy.worldlabs.ai),系统 30 秒完成预处理,随后即可用键盘 WASD 漫游:
- 绕到石柱背面,浮雕纹理与阳光下完全一致;
- 走进回廊,地面大理石映出人物倒影;
- 推开一扇在现实中并不存在的木门,可见内部暗室与光束;
- 1 小时后重新打开链接,场景、时间戳、光照角度全部保持。
行业冲击:游戏、XR、机器人集体“狂喜”
- 游戏:
传统 3A 场景需要数千名美术 + 光追农场,RTFM 让“单枪匹马做开放世界”成为可能。独立工作室 Extremely Real 已宣布下一款叙事冒险游戏直接用 RTFM 生成整座巴黎。 - XR:
Apple Vision Pro 二代传将预装 RTFM Runtime,用户扫一眼客厅就能生成持久 MR 空间,虚拟家具阴影与真实窗户光源实时匹配。 - 机器人:
无需预先 SLAM 建图,RTFM 可把“沿途拍到的 10 张照片”实时扩展为可导航的 3D 场景,斯坦福 IRIM 实验室已用它让无人机在 30 分钟内完成“无图”仓库巡检。
路线图与商业版图
World Labs 成立 8 个月,累计融资 2.3 亿美元,估值 10 亿,股东包括英伟达、AMD、a16z、Adobe。
- 2025 Q4:开放 RTFM-Base(7B)API,按分钟计费;
- 2026 Q1:推出 RTFM-Lite(4bit,RTX 4090 可跑),进军消费电子;
- 2026 Q2:联合车企发布“世界模型即地图”高精版,宣称要把“重资产高精地图”变成“轻资产沿途拍照”。
李飞飞在公开信里写道:
“我们相信,空间智能的‘iPhone 时刻’不是更重的显卡,而是更聪明的算法。RTFM 只是序章,当世界模型被压缩到一张卡、一颗芯片、最后一条边缘指令集,物理 AI 才会真正爆发。”
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4305
