Depth Anything 3：以极简Transformer架构重塑3D视觉，单目深度估计迈向通用空间感知

近期，字节跳动研究团队发布的Depth Anything 3（DA3）在计算机视觉领域引发了广泛关注。这项研究通过极简的架构设计，挑战了当前3D视觉研究中普遍存在的过度复杂化倾向，为单目深度估计技术开辟了新的可能性。

DA3的核心突破在于其方法论上的根本性简化。研究团队发现，要实现高质量的3D视觉感知，并不需要专门设计的复杂神经网络架构。相反，一个标准的Transformer编码器（如DINOv2）就足以胜任这项任务。这一发现颠覆了传统认知，因为长期以来，3D视觉研究往往依赖于精心设计的专用架构来处理复杂的几何关系。DA3的实践表明，这些专门化设计可能并非必要，甚至可能成为技术发展的障碍。

在表示学习方面，DA3采用了单一的深度光线预测目标，避免了传统方法中常见的多任务学习复杂性。这种简化不仅降低了模型的计算需求，还提高了训练效率和泛化能力。深度光线表示作为一种紧凑的几何描述方式，能够有效捕捉场景的三维结构信息，同时保持与二维图像像素的对齐关系。这种表示方法的优势在于其统一性和可扩展性，能够适应不同视角和场景条件。

架构设计上，DA3以预训练的视觉Transformer作为骨干网络，充分利用了大规模预训练获得的强大特征提取能力。为了处理任意数量的输入视图，研究团队引入了输入自适应的跨视图自注意力机制。该机制在前向传播过程中动态重新排列token，实现跨视图的高效信息交换。这种设计使得模型能够灵活处理从单视图到多视图的各种输入情况，大大扩展了应用场景。

预测头部分采用双DPT设计，通过处理同一组特征但使用不同的融合参数，联合输出深度值和光线值。这种设计既保证了预测精度，又保持了架构的简洁性。此外，模型还集成了可选的相机编码器，能够根据是否已知相机姿态调整预测策略，增强了在实际应用中的适应性。

训练策略方面，DA3采用了师生范式来统一多样化的训练数据。数据源包括真实世界深度相机捕获数据、3D重建数据和合成数据等多个方面。针对真实世界数据质量参差不齐的问题，研究团队开发了创新的伪标注策略：首先使用合成数据训练强大的单目深度模型，然后用这个模型为所有真实世界数据生成高质量的伪深度标签。这种方法显著提高了训练数据的质量和一致性，为模型性能的提升奠定了坚实基础。

为了全面评估模型性能，研究团队建立了新的视觉几何基准，涵盖相机姿态估计、任意视图几何重建和视觉渲染等多个维度。在这个综合基准测试中，DA3在所有10项任务中都取得了新的最先进（SOTA）成绩。具体而言，在相机姿态精度方面，DA3比之前的SOTA方法VGGT平均提升了35.7%；在几何精度方面提升了23.6%。这些数字不仅证明了DA3的技术优势，更验证了其极简设计理念的有效性。

DA3的应用潜力在多个场景中得到充分展示。在视频重建方面，模型能够从任意数量的视图中恢复视觉空间，无论是单视图还是多视图输入都能处理。大规模场景的SLAM应用中，仅用DA3替换现有系统中的VGGT模块，就能显著降低漂移误差，其效果甚至优于需要48小时以上计算时间的传统方法COLMAP。

在前馈3D高斯估计方面，通过冻结主干网络并在多个数据集上训练DPT头部来预测3D高斯溅射参数，DA3实现了强大的新颖视图合成能力。这种能力对于虚拟现实、增强现实等应用具有重要意义。在自动驾驶领域，DA3能够从车辆的不同视角获取多张图像，并估计出稳定且可融合的深度图，显著增强了对环境的理解能力。

纽约大学计算机科学助理教授谢赛宁对这项研究给予了高度评价，他指出：“在Depth Anything 3上，作者基本上表明，一个强大的表示编码器加上一个深度光线预测目标就足以在很多任务中获得可靠的、通用的空间感知。”这种简化不仅降低了技术门槛，更重要的是为3D视觉研究指明了新的方向——从追求复杂架构转向挖掘基础模型的潜力。

DA3的成功也引发了关于计算机视觉发展路径的思考。传统上，视觉研究往往被划分为众多独立的任务，每个任务都有专门的方法和模型。但DA3的研究表明，通过统一的表示和学习目标，这些看似不同的任务可以共享相同的基础架构。这种整合趋势可能预示着计算机视觉正在向更加统一、更加本质的方向发展。

从技术发展角度看，DA3代表了3D视觉研究的一个重要转折点。它证明了一个强大的预训练骨干网络加上适当的设计，就能在多个3D视觉任务上取得优异表现。这种极简主义的设计哲学不仅降低了计算成本，更重要的是提高了模型的可解释性和可扩展性。对于工业界而言，这意味着更易于部署和维护的解决方案；对于学术界而言，这为理解视觉表示的本质提供了新的视角。

展望未来，DA3所展示的技术路径可能会推动3D视觉研究向更加通用、更加高效的方向发展。随着模型规模的进一步扩大和数据集的不断丰富，这种基于Transformer的极简架构有望在更多视觉任务上展现其潜力。更重要的是，DA3的成功可能会激励研究人员重新审视其他视觉任务的设计理念，推动整个领域向更加本质、更加统一的方向演进。

— 图片补充 —