阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍
AI生成一张图片,你愿意等多久?
当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。
该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成的图片,现在几乎在“眨眼之间”就能完成。

目前,相关模型Checkpoint已在HuggingFace和ModelScope平台发布:
* HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
* ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps
该模型也已集成至呜哩AI平台(https://www.wuli.art)供调用。
这种高效的蒸馏方案是如何实现的?下文将详细解析。
传统轨迹蒸馏的“细节困境”
早期的蒸馏方案[1,2]可归纳为轨迹蒸馏(Trajectory Distillation)。其核心思想是让蒸馏后的学生模型模仿教师模型在多步生成中的路径:
* 渐进蒸馏:学生模型需直接对齐教师模型多次迭代后的输出。
* 一致性蒸馏:学生模型需保证在教师模型的去噪轨迹上输出一致的结果。
然而,这类方法在低迭代步数下难以实现高质量生成,最突出的问题是生成图像模糊,近期研究[3]也证实了这一点:

问题的根源在于约束方式。轨迹蒸馏直接约束学生模型的生成样本,使其在特定距离度量下对齐教师模型预测的高质量输出。其损失函数可表示为:
[
mathcal{L} = mathbb{E}[d(mathbf{x}{text{student}}, mathbf{x}{text{teacher}})]
]
其中 (d) 是距离函数,(mathbf{x}_{text{teacher}}) 是教师模型经多步去噪后的输出。
该损失函数对所有图像块一视同仁,导致占比低的细节部分(如文字、人物五官)学习不充分,学生模型生成的细节常出现明显扭曲。
从样本空间到概率空间:降低缺陷样本生成概率
近期,基于概率空间的蒸馏方案在少步生成场景(4~8步)取得了巨大成功,基本解决了上述细节丢失问题。其中最具影响力的工作之一是DMD2算法[4]。
DMD2将约束从样本空间转换到概率空间,其损失函数设计为:
[
mathcal{L}{text{DMD2}} = mathbb{E}{mathbf{x} sim p_{text{student}}}[log p_{text{student}}(mathbf{x}) – log p_{text{teacher}}(mathbf{x})]
]
这是一个典型的反向KL散度蒸馏损失,其显著特性是:当 (p_{text{student}}(mathbf{x}) > 0) 而 (p_{text{teacher}}(mathbf{x}) to 0) 时,损失值会急剧增大。
这意味着,对于学生模型生成的每一张图片,如果它不符合真实图片分布(即教师模型认为其概率极低),就会导致损失“爆炸”。因此,DMD2算法的本质思想是——不直接告诉学生模型“应该模仿什么”,而是让学生模型自己生成图片,然后由教师模型指导“哪里不对”。
这种反向KL散度损失的设计能显著提升生成图片的细节合理性与整体质量,已成为当前扩散模型步数蒸馏的主要策略。
热启动缓解分布退化
尽管反向KL散度损失能有效降低不合理样本的生成概率,但其本身也存在严重的模式崩溃与分布过度锐化问题[5],具体表现为生成多样性降低、饱和度增加、形体扭曲等。这些问题在2步蒸馏设定下尤为突出。
为了缓解分布退化,常见做法是给模型一个更合理的初始化[6]。该团队采用PCM[7]蒸馏进行模型热启动。实验表明,热启动后模型的形体扭曲问题得到了明显改善。
左图为直接进行DMD训练的结果,右图为经过PCM热启动后的2步模型生成结果。更好的初始化能有效降低不合理构图。
引入对抗学习,增强真实数据先验
如前所述,DMD2本质上是“学生生成 -> 教师指导”的过程,不依赖真实数据。这种做法有其优势与局限:
* 优势:极大提升了方案的普适性(高质量真实数据难以获取)。
* 局限:设定了性能上限——学生模型只能学习教师模型的生成分布,无法超越教师。
同时,由于损失函数设计的问题,DMD2蒸馏在生成高质量细节纹理(如苔藓、动物毛发)时效果往往不尽人意。
左图为原模型50步生成结果,右图为DMD2蒸馏后8步模型生成结果。在苔藓细节纹理上,DMD2生成效果不够细腻。
为了增强2步学生模型在细节上的表现能力,阿里智能引擎团队引入了对抗学习(GAN) 来提供进一步的监督。
GAN的损失可拆解为两部分:
* 生成器损失(让学生模型生成的图片骗过判别器):
[
mathcal{L}G = -mathbb{E}{mathbf{x} sim p_{text{student}}}[log D(mathbf{x})]
]
* 判别器损失(区分真实图片与生成图片):
[
mathcal{L}D = -mathbb{E}{mathbf{x} sim p_{text{data}}}[log D(mathbf{x})] – mathbb{E}{mathbf{x} sim p{text{student}}}[log (1 – D(mathbf{x}))]
]
其中,(mathbf{x}) 为学生模型生成的图片,(mathbf{x}_{text{real}}) 为训练集中的真实数据,(D(cdot)) 为判别器判断输入样本为真实数据的概率。
简而言之,对抗训练要求判别器尽可能将学生模型生成的图片判为“假”,同时要求学生模型尽可能生成能“欺骗”判别器的图片。
为了提升对抗训练的稳定性和效果,该团队进行了以下改进:
1. 真实数据混合策略:按固定比例混合高质量真实数据和教师模型生成图,以提升泛化能力和训练稳定性。
2. 引入特征提取器:使用额外的DINO模型作为特征提取器,提供更鲁棒的特征表示。
3. 调整损失权重:增加对抗训练在总损失中的占比。
实验验证表明,引入对抗训练后,学生模型的画面质感和细节表现得到了显著提升:

△ 增加GAN训练显著提升了画面的真实性与细节丰富度。
结语:从应用效果出发,细节决定成败
极少数步数的扩散生成一直是一个重要的研究方向。然而,单一的算法方案受限于其原理设计,往往难以达到理想效果。
阿里巴巴智能引擎团队从实际落地效果出发,逐一发现并分析了蒸馏过程中出现的各类问题(如形体扭曲、纹理缺失),并针对性地加以解决,最终使2步生成模型达到了工业场景可落地的水准。

尽管在大多数场景下,Wuli-Qwen-Image-Turbo的表现已能与原模型媲美,但在一些复杂场景下,受限于极少的去噪步数,仍有改进空间。团队将在后续版本中持续发布速度更快、效果更好的生成模型。
未来,团队将持续推进并迭代更多扩散加速技术,并开源相关模型权重。这些突破的背后,是团队在AI工程系统领域的长期深耕。作为阿里AI工程系统的建设者与维护者,该团队聚焦于大模型全链路工程能力建设,持续优化研发范式,专注于大模型训练推理性能优化、引擎平台、Agent应用平台等关键组件,致力于为阿里集团各业务提供高效稳定的AI工程基础设施。
智能引擎团队始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL在内的多项优秀开源项目。未来,他们期待与开源社区共同成长,将更先进的工程能力转化为触手可及的创作工具。
- [1] Progressive Distillation for Fast Sampling of Diffusion Models
- [2] Consistency Models
- [3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
- [4] Improved Distribution Matching Distillation for Fast Image Synthesis
- [5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
- [6] Transition Matching Distillation for Fast Video Generation
- [7] Phased Consistency Models
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19627
