MacTok

  • 复旦团队提出MacTok:64个Token实现图像生成SOTA,CVPR 2026 Highlight

    在视觉生成领域,提升扩散模型或自回归模型的推理效率,关键在于将图像压缩为更少量的 token。当前主流的图像分词器分为离散(如 VQ-VAE、VQ-GAN)与连续(如 KL-VAE)两派。离散分词器虽然应用广泛,但其不可求导的量化过程需要进行梯度近似,容易引入量化误差。相比之下,连续分词器摒弃了硬性的离散码本,保留了连续平滑的潜在空间,原生支持梯度优化并能容…

    3小时前
    1900