密集特征增强
-
无需重训的视觉革命:PH-Reg自蒸馏框架如何高效消除ViT密集特征伪影
在计算机视觉领域,Vision Transformers(ViTs)凭借其强大的全局建模能力,已成为图像分类、目标检测等任务的主流架构。然而,近期研究发现,ViT模型在生成密集特征图时,会出现与局部语义不一致的伪影(artifact),这些伪影会严重削弱模型在语义分割、深度估计等需要高空间精度的下游任务中的性能表现。传统解决方案通常需要在模型架构中引入reg…
在计算机视觉领域,Vision Transformers(ViTs)凭借其强大的全局建模能力,已成为图像分类、目标检测等任务的主流架构。然而,近期研究发现,ViT模型在生成密集特征图时,会出现与局部语义不一致的伪影(artifact),这些伪影会严重削弱模型在语义分割、深度估计等需要高空间精度的下游任务中的性能表现。传统解决方案通常需要在模型架构中引入reg…