阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍

AI生成一张图片,你愿意等多久?

当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。

该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成的图片,现在几乎在“眨眼之间”就能完成。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

目前,相关模型Checkpoint已在HuggingFace和ModelScope平台发布:
* HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
* ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

该模型也已集成至呜哩AI平台(https://www.wuli.art)供调用。

这种高效的蒸馏方案是如何实现的?下文将详细解析。

传统轨迹蒸馏的“细节困境”

早期的蒸馏方案[1,2]可归纳为轨迹蒸馏(Trajectory Distillation)。其核心思想是让蒸馏后的学生模型模仿教师模型在多步生成中的路径:
* 渐进蒸馏:学生模型需直接对齐教师模型多次迭代后的输出。
* 一致性蒸馏:学生模型需保证在教师模型的去噪轨迹上输出一致的结果。

然而,这类方法在低迭代步数下难以实现高质量生成,最突出的问题是生成图像模糊,近期研究[3]也证实了这一点:

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

问题的根源在于约束方式。轨迹蒸馏直接约束学生模型的生成样本,使其在特定距离度量下对齐教师模型预测的高质量输出。其损失函数可表示为:

[
mathcal{L} = mathbb{E}[d(mathbf{x}{text{student}}, mathbf{x}{text{teacher}})]
]

其中 (d) 是距离函数,(mathbf{x}_{text{teacher}}) 是教师模型经多步去噪后的输出。

该损失函数对所有图像块一视同仁,导致占比低的细节部分(如文字、人物五官)学习不充分,学生模型生成的细节常出现明显扭曲。

从样本空间到概率空间:降低缺陷样本生成概率

近期,基于概率空间的蒸馏方案在少步生成场景(4~8步)取得了巨大成功,基本解决了上述细节丢失问题。其中最具影响力的工作之一是DMD2算法[4]。

DMD2将约束从样本空间转换到概率空间,其损失函数设计为:

[
mathcal{L}{text{DMD2}} = mathbb{E}{mathbf{x} sim p_{text{student}}}[log p_{text{student}}(mathbf{x}) – log p_{text{teacher}}(mathbf{x})]
]

这是一个典型的反向KL散度蒸馏损失,其显著特性是:当 (p_{text{student}}(mathbf{x}) > 0) 而 (p_{text{teacher}}(mathbf{x}) to 0) 时,损失值会急剧增大。

这意味着,对于学生模型生成的每一张图片,如果它不符合真实图片分布(即教师模型认为其概率极低),就会导致损失“爆炸”。因此,DMD2算法的本质思想是——不直接告诉学生模型“应该模仿什么”,而是让学生模型自己生成图片,然后由教师模型指导“哪里不对”

这种反向KL散度损失的设计能显著提升生成图片的细节合理性与整体质量,已成为当前扩散模型步数蒸馏的主要策略。

热启动缓解分布退化

尽管反向KL散度损失能有效降低不合理样本的生成概率,但其本身也存在严重的模式崩溃与分布过度锐化问题[5],具体表现为生成多样性降低、饱和度增加、形体扭曲等。这些问题在2步蒸馏设定下尤为突出。

为了缓解分布退化,常见做法是给模型一个更合理的初始化[6]。该团队采用PCM[7]蒸馏进行模型热启动。实验表明,热启动后模型的形体扭曲问题得到了明显改善。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍 左图为直接进行DMD训练的结果,右图为经过PCM热启动后的2步模型生成结果。更好的初始化能有效降低不合理构图。

引入对抗学习,增强真实数据先验

如前所述,DMD2本质上是“学生生成 -> 教师指导”的过程,不依赖真实数据。这种做法有其优势与局限:
* 优势:极大提升了方案的普适性(高质量真实数据难以获取)。
* 局限:设定了性能上限——学生模型只能学习教师模型的生成分布,无法超越教师。

同时,由于损失函数设计的问题,DMD2蒸馏在生成高质量细节纹理(如苔藓、动物毛发)时效果往往不尽人意。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍 左图为原模型50步生成结果,右图为DMD2蒸馏后8步模型生成结果。在苔藓细节纹理上,DMD2生成效果不够细腻。

为了增强2步学生模型在细节上的表现能力,阿里智能引擎团队引入了对抗学习(GAN) 来提供进一步的监督。

GAN的损失可拆解为两部分:
* 生成器损失(让学生模型生成的图片骗过判别器):
[
mathcal{L}G = -mathbb{E}{mathbf{x} sim p_{text{student}}}[log D(mathbf{x})]
]
* 判别器损失(区分真实图片与生成图片):
[
mathcal{L}D = -mathbb{E}{mathbf{x} sim p_{text{data}}}[log D(mathbf{x})] – mathbb{E}{mathbf{x} sim p{text{student}}}[log (1 – D(mathbf{x}))]
]

其中,(mathbf{x}) 为学生模型生成的图片,(mathbf{x}_{text{real}}) 为训练集中的真实数据,(D(cdot)) 为判别器判断输入样本为真实数据的概率。

简而言之,对抗训练要求判别器尽可能将学生模型生成的图片判为“假”,同时要求学生模型尽可能生成能“欺骗”判别器的图片。

为了提升对抗训练的稳定性和效果,该团队进行了以下改进:
1. 真实数据混合策略:按固定比例混合高质量真实数据和教师模型生成图,以提升泛化能力和训练稳定性。
2. 引入特征提取器:使用额外的DINO模型作为特征提取器,提供更鲁棒的特征表示。
3. 调整损失权重:增加对抗训练在总损失中的占比。

实验验证表明,引入对抗训练后,学生模型的画面质感和细节表现得到了显著提升:

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

增加GAN训练显著提升了画面的真实性与细节丰富度。

结语:从应用效果出发,细节决定成败

极少数步数的扩散生成一直是一个重要的研究方向。然而,单一的算法方案受限于其原理设计,往往难以达到理想效果。

阿里巴巴智能引擎团队从实际落地效果出发,逐一发现并分析了蒸馏过程中出现的各类问题(如形体扭曲、纹理缺失),并针对性地加以解决,最终使2步生成模型达到了工业场景可落地的水准。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

尽管在大多数场景下,Wuli-Qwen-Image-Turbo的表现已能与原模型媲美,但在一些复杂场景下,受限于极少的去噪步数,仍有改进空间。团队将在后续版本中持续发布速度更快、效果更好的生成模型。

未来,团队将持续推进并迭代更多扩散加速技术,并开源相关模型权重。这些突破的背后,是团队在AI工程系统领域的长期深耕。作为阿里AI工程系统的建设者与维护者,该团队聚焦于大模型全链路工程能力建设,持续优化研发范式,专注于大模型训练推理性能优化、引擎平台、Agent应用平台等关键组件,致力于为阿里集团各业务提供高效稳定的AI工程基础设施。

智能引擎团队始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL在内的多项优秀开源项目。未来,他们期待与开源社区共同成长,将更先进的工程能力转化为触手可及的创作工具。

  • [1] Progressive Distillation for Fast Sampling of Diffusion Models
  • [2] Consistency Models
  • [3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
  • [4] Improved Distribution Matching Distillation for Fast Image Synthesis
  • [5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
  • [6] Transition Matching Distillation for Fast Video Generation
  • [7] Phased Consistency Models

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19627

(0)
上一篇 2026年1月30日 下午4:38
下一篇 2026年1月30日 下午6:43

相关推荐

  • 从数据中心到工作站:KTransformers与LLaMA-Factory联手重塑千亿参数模型微调格局

    在人工智能技术快速迭代的浪潮中,大模型微调一直被视为连接通用智能与垂直应用的关键桥梁。然而,传统微调方法对计算资源的巨额需求,将千亿乃至万亿参数模型的定制化能力牢牢锁在数据中心内部,普通研究者和中小企业只能望而却步。如今,这一局面正被彻底改写——仅需2-4张消费级RTX 4090显卡,即可在本地工作站上对DeepSeek 671B、Kimi K2 1TB等超…

    2025年11月5日
    18100
  • 【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

    Claude 4.5与Gemini 3即将发布,但焦点在DeepSeek。其V3.2版本疑似官方预热,而十月将至的V4版本则被曝将实现1M上下文长度、GRPO Turbo多步思考及更高推理效率等重大升级。

    2025年10月1日
    46201
  • Canvas-to-Image:统一画布框架如何重塑组合式图像生成范式

    在人工智能驱动的图像生成领域,控制性与创造性之间的平衡一直是核心挑战。传统方法通常采用分散式控制架构,将身份参考、空间布局、姿态线稿等不同类型的控制信息通过独立通道输入模型,导致创作流程割裂且效率低下。Canvas-to-Image框架的出现,标志着组合式图像生成技术迈入了一个全新的阶段——它通过统一画布设计,将异构控制信号整合到同一像素空间,实现了从多入口…

    2025年12月9日
    22800
  • Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 开年第一个月,国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。 例如,用它来制作一段真人版《火影忍者》第四次忍界大战的名场面: 从画面、台词到音效,都颇具原版日漫的风格。 制作这段真人剧的模型,正是生数科技最新推出的Vidu Q3。 深度体验后,…

    2026年1月30日
    21800
  • FARS全自动研究系统:228小时产出100篇论文,AI科研流水线实现工业级吞吐

    这个春节,AI 圈最硬核的一场「真人秀」,悄然完成了阶段性收官。 主角不是动漫人物,也不是舞枪弄棒的机器人,而是一位 7×24 小时从不疲倦的 AI 科学家 FARS( Fully Automated Research System )。 这套由 Analemma(日行迹)打造的全自动研究系统,在长达 228 小时 28 分 33 秒的连续公开运行中,自己提…

    2026年2月24日
    58500