告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

 

AI图像生成领域长期遵循一条不成文的定律:性能越强,代价越高。然而,学术界正悄然质疑一个更为根本的浪费——传统VAE几乎完全无视图像的语义信息。与此同时,像DINOv2、SigLIP这类视觉编码器,早已从海量图像数据中汲取了丰富的视觉常识。一个根本性的问题浮现:图像生成模型,真的有必要从零开始“摸索”对图像的理解吗?

2025年10月,纽约大学谢赛宁团队提出了“表征自编码器(Representation Autoencoder,RAE)”框架,首次系统性地将预训练视觉编码器引入扩散模型的潜在空间。相关报道可参阅:《VAE时代终结?谢赛宁团队“RAE”登场,表征自编码器或成DiT训练新基石》。

该成果在学术界引发强烈反响,但也暴露出三个阻碍其实际落地的核心问题:重建质量不及专用VAE、无法适配传统引导机制、训练收敛速度极慢。

五个月后,同一研究团队携手Adobe Research与澳大利亚国立大学,推出了全面升级的RAEv2。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

  • 论文标题:Improved Baselines with Representation Autoencoders
  • 论文地址:https://arxiv.org/abs/2605.18324v1
  • 项目页面:https://raev2.github.io

为何VAE会成为瓶颈?

要理解这项工作的意义,首先需要明白VAE是什么,以及它为何逐渐成为发展瓶颈。

不妨想象一座巨大的图书馆。其索引系统(VAE编码器)负责将每本书压缩成一张卡片,存入庞大的卡片柜(潜在空间)。扩散模型在这个卡片柜内工作:从一堆杂乱的卡片出发,逐步“去噪”,最终还原出一张清晰的卡片,再由解码器将卡片恢复成完整的书籍。

问题在于,传统索引卡片(VAE潜在空间)记录的是书籍的物理特征,如厚度、颜色、字体大小。然而,模型真正需要的是书籍的内容与含义。扩散模型每次从噪声开始,都必须重新学习“这是一只猫”、“这是一棵树”这类基本概念,效率极为低下。

预训练视觉编码器(如DINOv2)则截然不同。它们的索引卡片记录的是语义:这本书的主题是什么、出现了哪些角色、场景的空间结构如何。如果扩散模型能在这样的潜在空间中工作,就相当于站在了巨人的肩膀上,无需重复学习“视觉常识”。

RAE正是这样的系统:以预训练编码器作为图书馆的索引系统,并训练一个解码器来还原图像。然而,第一代RAE的问题在于,这套索引卡片只记录了“书的最后一章摘要”,丢失了大量中间层的细节信息。

三大洞察,一次系统性升级

RAEv2的核心在于三个独立但相互支撑的技术洞察。

洞察一:最后一层并非全部。

原始RAE直接使用视觉编码器最后一层的输出作为潜在表征。但预训练编码器的知识并非仅集中在最后一层——就像一位专家的完整知识体系,不只存在于他最终的结论中,也分布在他的推理过程中。

RAEv2提出了一个极为简洁的解决方案:将编码器最后K层的特征直接相加,作为潜在表征。这个操作不引入任何新参数,也无需额外训练数据(如文字或人脸),却使图像重建质量产生了质的飞跃。当K从1(原始RAE)增加到23(全部层)时,重建误差(rFID)从0.60骤降至0.18,峰值信噪比从18.93 dB提升至27.03 dB。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

洞察二:RAE和REPA其实是互补的,而非竞争关系。

这是整篇论文最令人意外的发现。

学术界此前普遍认为:既然RAE已经将预训练编码器的特征直接用作潜在空间,就无需再使用REPA(表征对齐损失,将同一批编码器特征蒸馏到扩散模型的中间层)——这难道不是多此一举,让同一个信号走两条路吗?

研究团队横跨27种视觉编码器进行了大规模实验,结果令人惊讶:无论使用哪种编码器,同时使用REPA和RAE的效果都优于单独使用其中任何一种。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

更有趣的是,两者改善的是不同维度。RAE提供的是“全局语义”,例如模型知道图像中有只猫;REPA提供的是“空间结构”,例如模型知道猫在图像左上角、眼睛在鼻子上方。前者对应语义信息(用线性探针准确率LP衡量),后者对应空间自相似性(用LDS衡量)。在27个编码器的相关性分析中,这一互补机制得到了严格的统计验证,皮尔逊相关系数分别达到-0.81(RAE依赖LP)和-0.89(REPA依赖LDS)。

这一发现还解释了为何更强的编码器DINOv3-L,在第一代RAE中反而表现不如DINOv2-B:因为原始RAE只利用了语义维度,而DINOv3-L的优势恰恰在于两个维度都强,只有RAE+REPA才能充分发挥其潜力。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

洞察三:“引导”其实一直藏在模型里。

这是最优雅的一项技术贡献。

图像生成模型在推理时,通常需要一种名为“引导”(Guidance)的机制来提升图像质量——其本质是让模型在“有条件”和“无条件”两个状态之间做差值,从而强化目标特征。原始RAE无法使用标准的分类器自由引导(CFG),只能训练一个额外的“弱版扩散模型”来充当引导基线(AutoGuidance),这不仅增加了训练成本,推理时也需要额外一次前向计算。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

RAEv2观察到一个关键性质:在RAE框架下,REPA本质上是在做“x预测”(预测干净的图像表征),而REPA头只能访问模型的浅层特征,天然是一个“更弱的版本”。将主模型输出也改写为x预测格式,就可以直接用REPA头作为引导基线。这样一来,无需额外训练任何模型,也无需额外前向计算,引导完全“免费”。

RAEv2的表现如何?

三大洞察组合在一起,形成了RAEv2,带来了可量化的全面改进。

在图像生成质量(ImageNet-256,以gFID衡量,越低越好)上,RAEv2在仅80个训练epoch后便达到了1.06。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

以FDr₆这一更严格的评估指标衡量,RAEv2在80个epoch时达到2.17,超越了原始RAE的最佳成绩3.26——后者需要十倍训练时长且依赖后处理。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

研究团队为此引入了一个新的效率指标:EPFID@k,即“达到无引导gFID ≤ k所需的训练epoch数”。该指标的意义在于:绝对gFID数值的微小差异在实际应用中几乎无法感知,但训练效率的差异直接决定了谁能更快迭代、更低成本地进行实验。

RAE的EPFID@2为177个epoch,RAEv2将其压缩到了35个epoch——收敛速度提升超过5倍,若与早期方法相比则达10倍以上。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

在计算成本上,RAEv2保持与第一代RAE完全相同的189 GFLOPs,而FLUX.1等顶级商业模型则需要448 GFLOPs。以不到一半的算力,达到超越所有同类系统的生成质量。这是RAEv2最直接的工程价值。

在重建质量上,尽管仅在ImageNet上训练,RAEv2的还原效果已可与FLUX VAE、SDXL-VAE等在大规模多样化数据集上训练的专有模型相媲美。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

超越图像分类:更广泛的适用性

RAEv2并未局限于ImageNet实验。论文还验证了其在两个方向上的泛化能力。

在文本生成图像领域,采用 SigLIP-2 作为编码器的 RAEv2 模型,在相关基准测试中展现出了与 ImageNet 实验相一致的改进趋势。相较于基于 VAE 的对照方法,其收敛速度明显更快。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

在导航世界模型这一方向上——即 AI 通过视觉信息预测未来帧的任务场景——RAEv2 同样带来了持续的性能提升。这充分说明,该框架并非仅为图像生成而设计的特殊技巧,而是一种具备跨任务通用性的基础方法。

告别VAE!RAEv2用预训练编码器重构扩散模型,重建质量飙升150倍

更大的赌注

RAEv2 所带来的意义,远不止于“更快的图像生成”。

在传统的图像 AI 体系中,“理解图像”与“生成图像”分属两条并行的轨道:前者依赖 DINOv2、CLIP 等判别式模型,后者则依靠 Stable Diffusion、FLUX 等生成式模型。两者共享的仅仅是训练数据,而非知识体系。

RAE 框架的核心设想,是将这两条轨道合二为一。如果生成模型能够直接在视觉理解模型的语义空间内运作,那么理解与生成便共享同一套“视觉语言”。未来的统一多模态模型,将具备直接在生成的图像潜在表征上进行推理的能力。

从一个看似单纯的“更快收敛”工程改进出发,RAEv2 不经意间指向了一个更为宏大的问题:下一代多模态 AI,是否应当从根本上统一“看”与“画”的底层表征?

这个问题,或许比 gFID 数值本身更值得深思。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35730

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐