告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍

AI图像生成领域长期遵循一条不成文的定律：性能越强，代价越高。然而，学术界正悄然质疑一个更为根本的浪费——传统VAE几乎完全无视图像的语义信息。与此同时，像DINOv2、SigLIP这类视觉编码器，早已从海量图像数据中汲取了丰富的视觉常识。一个根本性的问题浮现：图像生成模型，真的有必要从零开始“摸索”对图像的理解吗？

2025年10月，纽约大学谢赛宁团队提出了“表征自编码器（Representation Autoencoder，RAE）”框架，首次系统性地将预训练视觉编码器引入扩散模型的潜在空间。相关报道可参阅：《VAE时代终结？谢赛宁团队“RAE”登场，表征自编码器或成DiT训练新基石》。

该成果在学术界引发强烈反响，但也暴露出三个阻碍其实际落地的核心问题：重建质量不及专用VAE、无法适配传统引导机制、训练收敛速度极慢。

五个月后，同一研究团队携手Adobe Research与澳大利亚国立大学，推出了全面升级的RAEv2。

告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍

论文标题：Improved Baselines with Representation Autoencoders
论文地址：https://arxiv.org/abs/2605.18324v1
项目页面：https://raev2.github.io

为何VAE会成为瓶颈？

要理解这项工作的意义，首先需要明白VAE是什么，以及它为何逐渐成为发展瓶颈。

不妨想象一座巨大的图书馆。其索引系统（VAE编码器）负责将每本书压缩成一张卡片，存入庞大的卡片柜（潜在空间）。扩散模型在这个卡片柜内工作：从一堆杂乱的卡片出发，逐步“去噪”，最终还原出一张清晰的卡片，再由解码器将卡片恢复成完整的书籍。

问题在于，传统索引卡片（VAE潜在空间）记录的是书籍的物理特征，如厚度、颜色、字体大小。然而，模型真正需要的是书籍的内容与含义。扩散模型每次从噪声开始，都必须重新学习“这是一只猫”、“这是一棵树”这类基本概念，效率极为低下。

预训练视觉编码器（如DINOv2）则截然不同。它们的索引卡片记录的是语义：这本书的主题是什么、出现了哪些角色、场景的空间结构如何。如果扩散模型能在这样的潜在空间中工作，就相当于站在了巨人的肩膀上，无需重复学习“视觉常识”。

RAE正是这样的系统：以预训练编码器作为图书馆的索引系统，并训练一个解码器来还原图像。然而，第一代RAE的问题在于，这套索引卡片只记录了“书的最后一章摘要”，丢失了大量中间层的细节信息。

三大洞察，一次系统性升级

RAEv2的核心在于三个独立但相互支撑的技术洞察。

洞察一：最后一层并非全部。

原始RAE直接使用视觉编码器最后一层的输出作为潜在表征。但预训练编码器的知识并非仅集中在最后一层——就像一位专家的完整知识体系，不只存在于他最终的结论中，也分布在他的推理过程中。

RAEv2提出了一个极为简洁的解决方案：将编码器最后K层的特征直接相加，作为潜在表征。这个操作不引入任何新参数，也无需额外训练数据（如文字或人脸），却使图像重建质量产生了质的飞跃。当K从1（原始RAE）增加到23（全部层）时，重建误差（rFID）从0.60骤降至0.18，峰值信噪比从18.93 dB提升至27.03 dB。

告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍

洞察二：RAE和REPA其实是互补的，而非竞争关系。

这是整篇论文最令人意外的发现。

学术界此前普遍认为：既然RAE已经将预训练编码器的特征直接用作潜在空间，就无需再使用REPA（表征对齐损失，将同一批编码器特征蒸馏到扩散模型的中间层）——这难道不是多此一举，让同一个信号走两条路吗？

研究团队横跨27种视觉编码器进行了大规模实验，结果令人惊讶：无论使用哪种编码器，同时使用REPA和RAE的效果都优于单独使用其中任何一种。

告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍

更有趣的是，两者改善的是不同维度。RAE提供的是“全局语义”，例如模型知道图像中有只猫；REPA提供的是“空间结构”，例如模型知道猫在图像左上角、眼睛在鼻子上方。前者对应语义信息（用线性探针准确率LP衡量），后者对应空间自相似性（用LDS衡量）。在27个编码器的相关性分析中，这一互补机制得到了严格的统计验证，皮尔逊相关系数分别达到-0.81（RAE依赖LP）和-0.89（REPA依赖LDS）。

这一发现还解释了为何更强的编码器DINOv3-L，在第一代RAE中反而表现不如DINOv2-B：因为原始RAE只利用了语义维度，而DINOv3-L的优势恰恰在于两个维度都强，只有RAE+REPA才能充分发挥其潜力。

告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍

洞察三：“引导”其实一直藏在模型里。

这是最优雅的一项技术贡献。

图像生成模型在推理时，通常需要一种名为“引导”（Guidance）的机制来提升图像质量——其本质是让模型在“有条件”和“无条件”两个状态之间做差值，从而强化目标特征。原始RAE无法使用标准的分类器自由引导（CFG），只能训练一个额外的“弱版扩散模型”来充当引导基线（AutoGuidance），这不仅增加了训练成本，推理时也需要额外一次前向计算。

告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍

RAEv2观察到一个关键性质：在RAE框架下，REPA本质上是在做“x预测”（预测干净的图像表征），而REPA头只能访问模型的浅层特征，天然是一个“更弱的版本”。将主模型输出也改写为x预测格式，就可以直接用REPA头作为引导基线。这样一来，无需额外训练任何模型，也无需额外前向计算，引导完全“免费”。

RAEv2的表现如何？

三大洞察组合在一起，形成了RAEv2，带来了可量化的全面改进。

在图像生成质量（ImageNet-256，以gFID衡量，越低越好）上，RAEv2在仅80个训练epoch后便达到了1.06。

告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍