3D重建 - 鲸林向海

谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧

记忆机制是大型模型处理复杂任务的核心能力之一。在对话、自动化工作流等场景中，模型需要依赖记忆来维持长期上下文。这一需求在3D重建领域同样关键，尤其是在处理大范围场景或长序列视频时，跨帧信息的持续传递与整合至关重要。然而，现有的前馈式3D重建模型通常受限于较短的上下文窗口，难以有效建模长序列中的依赖关系。尽管近期出现的几何基础模型（如DUSt3R、MonST…

4天前

110000

AI产业动态

Meta SAM 3D与SAM 3深度解析：从单张图像到三维世界的技术革命

在计算机视觉领域，Meta近日发布的SAM 3D和SAM 3系列模型标志着图像理解技术迈入了全新阶段。这次更新不仅延续了Segment Anything Model（SAM）系列在图像分割领域的领先地位，更将2D图像理解能力拓展到3D重建、物体姿态估计和概念分割等多个维度，为AR/VR、机器人、内容创作等应用场景提供了前所未有的技术支撑。 **SAM 3D：…

2025年11月20日

203000

AI产业动态

从虚拟生成到真实复刻：如视Argus 1.0如何用空间大模型重构物理世界

在人工智能领域，世界模型（World Model）近期成为炙手可热的研究方向，多个顶尖实验室相继展示出仅凭单张图片或简短文字描述即可生成交互式3D虚拟世界的惊人演示。这些成果无疑彰显了AI在内容生成方面的巨大潜力，引发行业广泛关注。然而，一个根本性问题随之浮现：这些由模型“想象”出的虚拟世界，其构成元素大多源于数据训练中的模式学习与合成，缺乏对真实物理空间的…

2025年11月19日

210000

AI产业动态

深度解析Depth Anything 3：单Transformer统一3D视觉任务，字节跳动如何重塑几何感知新范式

在计算机视觉领域，3D重建与几何感知一直是核心挑战之一。传统方法往往需要针对不同任务设计专用模型，如单目深度估计、多视角重建、相机姿态估计等，这不仅增加了开发复杂度，也限制了模型的泛化能力与数据利用效率。近日，字节跳动Seed团队的Depth Anything 3（DA3）研究成果，以单一Transformer架构统一了多种3D视觉任务，在视觉几何基准上取得…

2025年11月18日

209000