MacTok

大模型工程

复旦团队提出MacTok：64个Token实现图像生成SOTA，CVPR 2026 Highlight

在视觉生成领域，提升扩散模型或自回归模型的推理效率，关键在于将图像压缩为更少量的 token。当前主流的图像分词器分为离散（如 VQ-VAE、VQ-GAN）与连续（如 KL-VAE）两派。离散分词器虽然应用广泛，但其不可求导的量化过程需要进行梯度近似，容易引入量化误差。相比之下，连续分词器摒弃了硬性的离散码本，保留了连续平滑的潜在空间，原生支持梯度优化并能容…

3小时前
19000