在人工智能领域,世界模型(World Model)近期成为炙手可热的研究方向,多个顶尖实验室相继展示出仅凭单张图片或简短文字描述即可生成交互式3D虚拟世界的惊人演示。这些成果无疑彰显了AI在内容生成方面的巨大潜力,引发行业广泛关注。然而,一个根本性问题随之浮现:这些由模型“想象”出的虚拟世界,其构成元素大多源于数据训练中的模式学习与合成,缺乏对真实物理空间的精确映射与度量。
如果我们不满足于创造虚构的数字场景,而是希望将现实世界——包括住宅、办公场所、工业设施乃至整个城市——完整、精确地转化为可交互、可计算的3D数字孪生体,这需要怎样的技术路径?这正是如视(Realsee)发布全球首个支持全景图输入的空间大模型Argus 1.0所要回答的核心命题。与主流虚拟生成路线不同,Argus 1.0代表了一条“真实复刻”的技术路径,其目标并非虚构世界,而是高精度还原真实空间。

Argus 1.0的技术突破在于,它能够以毫秒级速度,从单张或多张全景或普通图像中,同步推理出带有绝对尺度的相机位姿、深度图及点云数据。这一能力标志着从2D视觉信息到3D空间理解的重大跨越,为大规模空间数字化提供了高效桥梁。其背后,是如视自2017年以来围绕“空间智能”构建的深厚技术积累与战略布局。
任何强大模型的诞生都非空中楼阁,Argus 1.0的根基深植于如视独特的“数字空间-算法-行业应用”飞轮循环体系。这一体系的核心驱动力,是如视通过多年实践构建的全球最大真实空间数据库。截至2025年9月,该数据库已积累超过5300万套数字空间数据,覆盖面积突破44亿平方米。如视副总裁、首席科学家潘慈辉博士指出,这一海量、高质量的真实数据资产,是算法持续迭代的根本燃料。

数据规模构筑了护城河的宽度,而数据质量则决定了其深度。Argus 1.0的技术突破,很大程度上得益于如视坚持自研硬件与算法协同的技术路线,从而确保了数据“完备且一致”的高标准。通过自研的伽罗华(Galois)系列3D激光扫描仪(如P4型号可直出3亿像素超高清全景图,图像与点云平均匹配误差小于2像素),如视在数据采集源头实现了像素级精度的对齐。这种严格标定、高度一致的真实数据对,为模型学习准确深度与绝对尺度提供了可靠前提,也是其性能超越同类算法的关键养料。

在强大数据飞轮的支撑下,如视研发团队以应用为导向进行底层创新。公司年均研发投入超2亿元人民币,持续耕耘使其在学术与产品层面均获国际认可:研究成果多次入选ICCV、CVPR等顶级会议;硬件产品连续三年斩获德国红点设计大奖。这些积累最终汇聚于Argus 1.0的诞生。
从技术命名上即可窥见其演进脉络:如视早期单目深度估计算法命名为Cyclops(独眼巨人),象征从单一视角推测深度;而Argus(百眼巨人)则寓意模型实现了从“单视”到“多视全局一致性”的跨越。基于Transformer架构构建的Argus 1.0,通过近百万套真实高清空间数据训练,在兼容性、实时性与生成质量三大维度实现行业突破。
兼容性方面,Argus 1.0是业界首个且唯一支持全景图输入的深度推测大模型,同时广泛兼容单张/多张普通照片及AI生成图像,具备强大的多源适应能力。

这一特性直击VR内容生产痛点,潘慈辉博士表示,它能显著降低从全景图到VR的处理门槛,提升效率,使低成本、高效率的3D空间复刻成为可能。
实时性与一致性方面,Argus 1.0实现了毫秒级全局重建。相较于此前需分步处理深度推测与位姿拼接的流程,新模型可一步到位,同步输出带有绝对尺度的相机位姿、深度图及点云,极大提升了重建效率与全局一致性。

生成质量上,模型得益于高质量训练数据与Transformer架构的泛化能力,在处理玻璃、镜面等传统难题时表现稳健,输出结果在细节还原与尺度准确性上达到业界领先水平。
Argus 1.0的发布,不仅标志着如视在空间智能领域从数据积累到算法创新的闭环形成,更预示着一个新时代的开启:当AI从“想象虚拟”转向“复刻真实”,物理世界与数字世界的融合将进入高精度、高效率的新阶段。其应用前景广阔,从房产、家装、零售到智慧城市、工业运维,任何需要空间数字化与可视化的场景均可受益。随着技术迭代与生态拓展,空间大模型有望成为驱动产业数字化转型的核心引擎之一,重新定义我们感知、交互与改造现实世界的方式。
— 图片补充 —




关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7223
