表征自编码器

大模型工程

告别VAE！RAEv2用预训练编码器重构扩散模型，重建质量飙升150倍

AI图像生成领域长期遵循一条不成文的定律：性能越强，代价越高。然而，学术界正悄然质疑一个更为根本的浪费——传统VAE几乎完全无视图像的语义信息。与此同时，像DINOv2、SigLIP这类视觉编码器，早已从海量图像数据中汲取了丰富的视觉常识。一个根本性的问题浮现：图像生成模型，真的有必要从零开始“摸索”对图像的理解吗？ 2025年10月，纽约大学…

7小时前
45000