在迈向通用人工智能(AGI)的征程中,世界模型被视为让机器理解物理规律、实现空间智能的关键。高效、稳健且精准的三维感知能力,被普遍认为是构建世界模型的首要前提。通常而言,一个成熟的世界模型需具备三大核心能力:对长时空序列的持续记忆、对复杂动力学的因果解耦,以及对高清物理细节的精细感知。近期,魔芯科技(KOKONI 3D)联合同济大学(祝澜耘教授团队)等多个科研团队,基于视觉几何Transformer(VGGT)架构,连续发布了四项研究成果。该系列工作系统性地突破了三维感知在流式处理、动态鲁棒性和精细感知方面的瓶颈,实现了从基础图像重建到高保真4D世界模型的跨越。
一、三维感知的核心约束:长时序、强动态与高精度的系统性瓶颈
在真实的工业级场景中,三维感知模型面临的挑战不仅局限于精度本身。当输入分辨率提升、场景引入动态变化、数据形式扩展为视频流时,传统架构的算力、算法与内存资源将同时承受压力。具体而言,存在三大核心难题:
-
无限序列与有限内存的冲突:现有的流式重建方法在处理长视频流输入时,模型的KV缓存会随输入帧数线性增长,随着时间推移引发显存溢出。这意味着,即便单帧重建精度再高,模型也无法在有限显存下完成对无限长序列的持续推理,从而形成长视频理解的“记忆瓶颈”。
-
动与静的纠缠:在动态场景中,移动的物体会对相机位姿估计产生严重干扰。传统模型难以区分“相机自身的运动”与“场景中物体的独立运动”,导致两套运动信号相互污染。其后果是,静态背景被错误地扭曲变形,动态物体的结构出现坍塌或“鬼影”,整个重建结果的几何一致性被彻底破坏。
-
算力与精度的矛盾:高分辨率特征承载着丰富的物理细节(如细薄结构、纹理边缘),但特征维度的提升会引发Token数量的显著增长。当模型致力于捕获更精细的几何表征时,显存占用迅速攀升直至溢出。这使得模型在精度追求与算力约束之间面临两难:若降低特征分辨率则细节丢失,若维持高分辨表达则显存难以为继。

二、三维感知能力的系统性重构:长效记忆、因果解耦与高保真感知
针对上述三大技术瓶颈,魔芯科技联合同济大学(祝澜耘教授团队)等机构,基于VGGT架构提出了三项系统性创新:长效时空记忆、动力学解耦与高保真感知,分别从序列、动态、分辨率三个维度切入,逐一攻克三维感知的核心难题,全方位支撑空间智能世界模型的构建。
- 流式序列重建:赋予世界模型“长效时空记忆”

- 论文链接:https://arxiv.org/abs/2604.15237
一个实用的世界模型不能只具备“瞬时感知”,必须能像生物一样持续处理无限流式信息并保持长久记忆。然而,当处理长视频流时,网络的KV Cache会随帧数线性增长,迅速榨干显存。针对这一痛点,魔芯团队提出StreamCacheVGGT,使用创新的记忆管理机制,在O(1)恒定显存开销下,实现了对无限长序列的高保真重建。

图:StreamCacheVGGT展示O(1)恒定显存下的长效流式重建架构
该方法并非简单压缩或裁剪缓存,而是引入“选择性记忆”的策略。通过跨层一致性评分(CLCES),模型能够追踪Token在不同Transformer层级中的稳定性表现,从而优先保留具有长期几何意义的特征,同时抑制短期噪声的干扰。

图:跨层一致性评分
在此基础上,混合缓存压缩机制创新“三级分诊”策略。对于中等价值的信息,通过动态性地归属合并进行压缩存储而非生硬剔除。这种机制有效保存了低频结构先验,防止世界模型在长距离任务中出现几何坍塌。

图:混合缓存压缩
在500帧以上的KITTI长序列测试中,StreamCacheVGGT在严格的O(1)显存限制下,将深度误差Abs Rel降低至0.123。相比传统“纯剔除”方案,其重建点云的表面完整度与局部细节显著提升。而在多项可视化结果中,StreamCacheVGGT也表现出了相比现有方法更完整、清晰且噪声更少的重建效果。

- 4D动态重建:解耦动力学规律,理解动态世界的“因果”

- 论文链接:https://arxiv.org/pdf/2604.09366

- 论文链接:https://arxiv.org/pdf/2605.12027
真实世界是动静结合的,能够分离“自我运动”与“物体运动”是世界模型理解物理因果的核心。魔芯科技从渐进式解耦与不确定性建模两个角度切入,显著提升了动态场景下的重建稳定性。
在运动建模方面,团队提出渐进式解耦策略,通过“先稳定相机,再恢复动态”的建模路径,将相机位姿估计与场景几何重建逐步分离。借助动态掩码机制,模型能够在初始阶段屏蔽动态物体对位姿估计的干扰,从而建立更加稳定的参考系,随后再对动态区域进行精细建模,实现动静分离的重建效果。

为应对复杂视觉环境中的噪声干扰,模型引入基于不确定性的建模方法来解构子空间投影,对多头注意力进行自适应加权。这使模型能够在信息混杂的场景中识别更具可靠性的运动信号,从而在剧烈动态变化下依然维持几何结构的稳定输出。

两项成果在多项公开数据集上表现优异。在DyCheck动态几何基准上,Accuracy Mean指标提升了15.4%;定性分析也显示,该方法能有效抑制动态噪声,恢复完整准确的物体结构,消除了动态场景中常见的“鬼影”现象。


- 高保真感知:精细特征驱动高清几何重建

- 论文链接:https://arxiv.org/pdf/2603.27222
对环境几何细节的掌握程度是影响世界模型预测精度的关键因素。为此,魔芯科研团队提出HD-VGGT,解决了前馈式模型在处理高清输入时的算力与精度的平衡问题:
层次化细节注入:采用双分支架构,在保持低分辨率全局一致性的基础上,通过可学习特征上采样将高清图像中的高频物理细节(如细薄灯杆、墙面纹理)精准注入几何特征。
特征调制:针对镜面反射、弱纹理等视觉歧义区域,HD-VGGT引入特征调制机制,自动识别并抑制不稳定的特征Token,确保模型在复杂光照条件下依然能够输出规整、边界锐利的高精度点云。
在实验结果层面,HD-VGGT在多项公开数据集上取得领先结果,特别是在RealEstate10K数据集上AUC@30达到87.01%,刷新该数据集的记录。此外,在深度估计任务上的多项定性结果也表明HD-VGGT能清晰还原灯杆、椅腿等细薄结构,解决传统模型在高清输入下的过平滑与伪影问题。

魔芯科技研究团队负责人表示:“我们不仅是在做3D/4D重建,我们是在为机器视觉构建一套健壮的‘空间底层协议’。通过VGGT系列技术,我们赋予了模型精细的触感(HD)、动态的洞察(4D)和持久的记忆(Streaming),这正是通往具备物理常识的高阶世界模型的必经之路。”
此外,研究团队在4D基座模型上更是取得了关键进展,证明了3D/4D场景建模同样遵循Scaling Law。通过将训练数据规模扩展至百万级以上,并将模型参数量提升至百亿级别,我们实现了重建误差的显著下降,并获得了稳定、长时一致的空间建模能力。

图:实验结果显示,随着训练数据规模的增长(左侧图表)以及模型参数量的扩大(右侧图表),模型的预测精度持续提升,表现为误差值的逐步降低。
凭借扎实的技术积累,魔芯科技在资本市场获得了进一步认可与支持。本轮融资由富瀚微股份、联融志道(联想控股旗下基金)以及浙创投联合投资,同时原有股东也继续追加投资。据了解,魔芯科技未来将加大对空间智能及世界模型技术的投入,重点推动三维/四维重建、空间理解、长视频推理以及交互式建模等核心能力的研发与商业化落地。公司的目标始终是让AI真正理解、生成内容,并具备与物理世界交互的能力,从而为各产业场景提供关键技术支持。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34499

