颠覆认知：扩散模型表征对齐中，空间结构竟比全局语义更重要

2025年12月13日下午12:41 • AI产业动态 • 阅读 81

在扩散模型的训练优化领域，表征对齐（REPA）技术自去年十月问世以来，一直被视为加速扩散Transformer训练的关键突破。该方法通过将预训练视觉编码器的表征蒸馏为中间扩散特征来指导生成式训练，显著提升了训练效率。然而，一个根本性问题长期悬而未决：对于生成任务而言，目标表征的哪个维度更为关键？是编码器捕获的全局语义信息（通常以ImageNet-1K分类准确率衡量），还是其内部的空间结构（即图像块token之间的成对相似度关系）？传统观点普遍倾向于前者，认为更强的全局语义性能必然带来更优的生成效果。

为了系统探究这一问题，来自Adobe Research、澳大利亚国立大学和纽约大学的联合研究团队展开了一项大规模实证分析。他们测试了27种不同的视觉编码器，涵盖不同架构、规模和预训练目标，并在多种模型配置下评估了它们在表征对齐中的表现。研究结果彻底颠覆了既有认知：驱动目标表征生成性能的核心因素并非全局语义信息，而是空间结构。这一发现不仅挑战了领域内的基础假设，更为扩散模型的训练优化开辟了全新方向。

研究团队首先观察到一系列反直觉现象，直接质疑了“全局强则生成强”的传统逻辑。例如，分割模型SAM2-S的ImageNet准确率仅为24.1%，远低于许多高性能分类模型，但其在REPA中作为目标表征时，生成的图像质量（以FID分数衡量）却优于准确率高出60%的模型如PE-Core-G。同样，在同一模型家族中，参数量更大的版本（如DINOv2-g）虽然分类准确率更高，但在表征对齐中并未带来更好的生成效果，有时甚至表现更差。更令人深思的是，当研究团队强行将包含全局信息的[CLS] token融合到图像块特征中时，线性探测准确率虽有所提升，生成质量却显著下降。这些证据一致表明：更高的验证准确率并不等同于更优的生成表征。

那么，究竟是什么在主导生成性能？研究团队提出核心假设：空间结构——即图像块token之间的成对余弦相似度模式——才是关键驱动力。为了量化这一概念，他们引入了“空间自相似性”指标，其中最直观的是LDS（局部与远端相似性）。LDS衡量的是在特征空间中，相邻图像块是否比相距较远的图像块更相似；高分值意味着编码器能有效保留“近亲远疏”的空间层次结构。通过相关性分析，研究团队发现传统线性探测准确率（代表全局信息）与生成质量（FID）的皮尔逊相关系数仅为r = -0.260，相关性极弱；而空间结构指标（LDS）与生成质量的相关性高达|r| = 0.852，呈现强正相关。这一结果完美解释了前述反例：SAM2模型虽不擅长全局分类，但其卓越的空间感知能力（如精准识别物体轮廓）赋予了它出色的生成指导潜力。

基于这一洞见，研究团队进一步提出了改进方案iREPA。其核心思想是：既然空间结构至关重要，那么优化训练过程就应聚焦于强化空间信息的传递，而非盲目追求全局语义强度。iREPA的实现异常简洁，代码改动不足四行，主要包含两项关键修改：首先，用3×3卷积层替代标准REPA中的MLP投影层。MLP作为全连接网络，在处理图像块特征时容易破坏空间对比度，而卷积层凭借其固有的归纳偏置，能更好地保留局部空间关系。其次，引入空间归一化层。预训练视觉编码器的patch token常包含冗余的全局信息（如同一层笼罩全图的“雾”），导致前景与背景token相似度过高。空间归一化通过减去均值、除以标准差，有效剥离这层干扰，显著增强图像块之间的空间对比度。

iREPA的有效性在大量实验中得到了验证。研究团队在多种视觉编码器、模型规模和训练变体（如REPA、REPA-E、Meanflow、JiT等）上测试了该方法，均观察到一致的性能提升。对于扩散Transformer（如SiT-XL/2）的训练而言，收敛速度直接关联计算成本与时间开销。实验数据显示，无论使用何种编码器作为“教师”，iREPA都能显著加速“学生”模型的训练收敛，部分场景下甚至将训练迭代周期缩短了30%以上。此外，生成图像的质量指标（如FID、Inception Score）也有明显改善，证明该方法在提升效率的同时并未牺牲输出效果。

这项研究的启示深远。它不仅纠正了领域内对表征对齐机制的误解，更提供了一种轻量级、高泛化的优化思路。未来，基于空间结构的表征设计有望成为扩散模型训练的新范式，推动生成式AI向更高效、更可控的方向演进。论文已发表于arXiv（编号2512.10794v1），项目页面与代码均已公开，为后续研究与实践提供了坚实基础。