AI领域最前沿的方向“世界模型”,正在经历一场深刻变革。
互联网上,虚拟智能体在数字世界中灵活穿梭;现实中,具身机器人却仍受困于试验场,难以应对复杂的物理空间。这道横跨虚拟与现实的鸿沟,其核心在于智能体对空间智能感知的缺失。
2024年,空间智能这一关键赛道被正式点燃,成为全球科技竞争的焦点。其中,构建一个拥有永久一致性的3D场景,让智能体不仅能“看见”空间,更能真正理解并实时交互物理世界,被视为核心技术挑战。
如今,这一空间智能的高地正被国内团队攻克并推向产业纵深。近日,影溯(InSpatio)正式发布并开源了其实时帧生成模型 InSpatio-WorldFM,一个实时交互的3D世界模型。这标志着中国团队在空间智能底层技术上取得了奠基性突破,正以开放的姿态,推动AI从虚拟屏幕走向物理现实。

- 项目主页:https://inspatio.github.io/worldfm/
- 模型GitHub:https://github.com/inspatio/worldfm
- 在线体验:http://www.inspatio.com/worldfm
InSpatio-WorldFM的发布不仅是对全球技术路线的快速响应,更是中国团队在空间智能领域的独立思考。由浙江大学CAD&CG国家重点实验室教授章国锋博士领衔,影溯团队凭借在3D视觉与空间计算领域二十余年的积累,跳出了依赖稀缺“原生3D数据”的传统路径,通过独创的“数据升维”与“几何约束”策略,成功激活了互联网海量2D视频数据中蕴含的3D空间知识。
这一技术路径精准破解了行业长期面临的“高质量、规模化3D数据匮乏”的瓶颈,将海量2D存量数据高效转化为驱动3D世界模型的高维动力。
InSpatio-WorldFM能够高效进行多视角一致的空间推理,并支持实时交互式探索。
项目发布后迅速获得广泛关注,其在线演示访问量短时间内激增。

得益于其3D模型机制,生成的虚拟世界具有高度一致性。场景在空间几何、光照与物理规律上非常稳定,无限时长推理不会出现遗忘或衰退。
值得注意的是,相比以往的世界模型,InSpatio-WorldFM对算力的需求显著降低。其目标是在消费级GPU上实现实时空间推理,将空间智能从数据中心扩展到边缘设备——甚至在单块RTX 4090 GPU上即可进行实时推理,极大地拓展了其商业应用的想象空间。
此外,生成的空间支持整体一致性编辑——不再是对局部区域的零散修改,而是在保持几何结构、光照关系、材质属性与物理逻辑全局一致的前提下,进行跨视角、跨区域的统一调整。
例如,从这样:
到这样:
无论是整体风格迁移、空间布局重构还是光照材质调整,系统都能确保改动在所有视角与后续生成结果中保持一致,避免“前后矛盾”或“视角错位”。换句话说,它编辑的不是一帧图像,而是一个可控、连贯、具备物理约束的三维世界本体。
技术路线:维度突破,构建原生3D
当前,绝大多数主流世界模型(如谷歌的Genie、Runway的模型等)本质上是基于2D像素预测的视频生成模型,其每个时刻的空间状态由平面图像表达。但物理世界是3D的,AI要与物理世界交互,其空间状态的表达也应是3D的。
影溯的技术路线回归“第一性原理”,不再执着于逐像素生成画面,而是致力于构建原生的3D世界。这意味着让模型学会对真实世界传感器数据进行抽象建模,在更高层次的表征空间中进行预测与推理。
为此,影溯团队没有从零开始学习物理常识,而是通过精确控制,从海量2D视频数据中反向抽取出其中蕴含的三维几何与物理规律。在其生成的3D世界中,智能体可以自由行动,无需担心出现不可靠的细节。
基于独特的3D技术路线,该模型能有效解决当前AIGC工具“随机性高、可控性差”的痛点。它不仅支持在实时生成的场景中自由漫游,还能将视频中的动态前景无缝转移到另一个空间环境中,并严格保证转移后的前景与新背景在几何、光照、物理规则上的高度一致性,实现“一次生成,精准可控”。
可以看出,该模型在背景变换与镜头控制上,展现出卓越的像素级前景锁定能力和稳定性。即使背景完全变换、光线自然适配,前景主体的光照与细节结构仍能与新背景保持高度一致。
影溯团队透露,其世界模型的训练仅动用了百卡规模的算力,远低于当前主流视频模型训练所需的算力。其核心在于直接在底层构建物理引擎的3D骨架——计算物理场,远比穷举像素更高效。
具体而言,本次开源的InSpatio-WorldFM具备三大核心特性:
突破2D限制:赋予空间智能一致性
在使用现有AI视频生成工具时,常会遇到镜头转动导致物体变形或背景扭曲的问题。这是因为基于2D的模型仅进行像素级的二维预测,并不理解真正的物理世界。
InSpatio-WorldFM抛弃了纯2D的学习路径,将 “三维多视图一致性” 作为内容生成的核心约束机制。无论是在预计算还是实时推理中,模型都被强制要求理解并保持3D空间结构的连贯性。

多视图一致的生成模型
因此,在InSpatio-WorldFM生成的世界里,物体具备真实的物理体积,且不会随时间发生漂移或形变。它赋予了空间智能最稀缺的品质——物理级的持久一致性。无论在这个虚拟空间中探索多久,场景都不会崩坏变形。这对影视制作、游戏开发以及具身智能训练而言,是一项关键特性,证明模型并非在“画画”,而是在“计算物理场”。由此生成的虚拟世界,可直接作为未来机器人所需的数以万计的虚拟训练场。
突破时空记忆瓶颈:显式锚点与隐式记忆的混合架构
传统的2D视频模型在处理长序列时,常面临“长时序遗忘”与“空间几何崩塌”的挑战。InSpatio-WorldFM通过创新的3D机制,从根本上突破了这些限制。
高效率的轻量化框架
模型采用基于帧的架构,结合模型蒸馏与推理优化技术,显著压缩了庞大的空间计算需求。其目标是在消费级GPU上实现实时空间推理,这将使空间智能得以从数据中心走向各类边缘设备,如机器人和XR眼镜,实现真正的低延迟实时交互。
高效率低延迟的实时生成演示
“显式锚点 + 隐式记忆”实现稳定空间记忆
空间智能的核心挑战在于“记忆”。若一个机器人在转头瞬间便遗忘环境布局,高阶规划与自主导航便无从谈起。为此,InSpatio-WorldFM设计了一种“显式锚点 + 隐式记忆”的混合架构。
- 显式锚点:利用前馈式重建技术生成稳固的3D物理空间锚点,为模型提供精确的几何结构支撑。
- 隐式记忆:将参考帧作为生成模型内部的隐式记忆,持续保留场景信息。
“显式锚点+隐式记忆”架构工作示意
这种设计为AI构建了“三维坐标体系”,确保无论视角如何变换,生成的场景内容都不会发生漂移。它使AI既具备神经元般的灵活推理能力,又拥有几何级别的严密记忆,从而在跨越复杂视点与长时间推移后,仍能保持稳定、高效且可扩展的空间理解。
得益于这一架构,InSpatio-WorldFM理论上能够生成无限时长的连贯3D场景,突破了以往视频模型因复杂度指数上升而受限的时长瓶颈。
破解3D数据匮乏难题
在训练数据方面,团队凭借在SLAM、NeRF和3DGS等领域的技术积累,能够以极低成本合成海量高质量的3D训练数据,成功打破了行业中长期存在的3D数据匮乏瓶颈。
架构创新与数据积累的结合,使InSpatio-WorldFM展现出强大的“工程可用性”,为实际应用奠定了坚实基础。
顶尖团队与深厚积淀
训练3D世界模型面临双重挑战:互联网上海量的2D视频数据难以直接用于3D训练,同时精通3D视觉与图形学的顶尖人才极为稀缺。
影溯科技核心团队在该领域拥有超过20年的技术积淀,堪称国内空间计算领域的“梦之队”。团队主要成员来自浙江大学计算机辅助设计与图形系统全国重点实验室(该实验室图形学研究全球排名第三)以及原商汤科技3D视觉与混合现实团队。
- 创始人章国锋:浙江大学求是特聘教授、国家杰出青年科学基金获得者,前商汤数字空间事业群首席科学家。他在SLAM与3D重建领域深耕超过20年,是国内空间计算领域的引领者。
- 联合创始人兼CTO刘浩敏:前商汤研究总监、浙江大学博士。其重要成就包括主导实现了业内首个手机端无标志SLAM商业系统,比苹果ARKit和谷歌ARCore早了三年。
随着生成式AI的爆发,3D重建与生成开始融合。影溯团队于2025年7月创立,致力于打造能够理解物理世界空间几何、物理规则与因果关系的3D世界模型。
基于长期积累,团队已构建了完整的三维场景重建与生成平台,具备大尺度真实场景的快速扫描与重建能力,提供了从数据采集、场景生成、编辑到应用开发的完整工具链。
独特的“3D数据升维引擎”
影溯构建了行业独有的“3D数据升维引擎”,其核心并非盲目堆砌算力,而是利用成熟的几何约束工具链,从现有海量视频数据中高效抽取3D知识,从而破解3D数据荒。这种结合了长期算法积累与工程化工具链的能力,构成了其深厚的技术护城河与商业壁垒。
开源共建,开启未来
与一些选择闭源商业路径的机构不同,影溯确立了开源共建的核心战略,相信空间智能的未来应由全球开发者共同塑造。
在InSpatio-WorldFM开源之后,团队计划进一步公开更丰富的技术细节。扩展版模型以及支持与动态世界实时交互的体验应用也将在不久后推出。
随着此类开源空间智能模型的出现,生成模型、具身智能体与现实世界中的机器人站在了全新的起跑线上。AI理解并与物理世界深度交互的故事,才刚刚开始。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24558
