阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍

AI生成一张图片,你愿意等多久?

当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。

该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成的图片,现在几乎在“眨眼之间”就能完成。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

目前,相关模型Checkpoint已在HuggingFace和ModelScope平台发布:
* HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
* ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

该模型也已集成至呜哩AI平台(https://www.wuli.art)供调用。

这种高效的蒸馏方案是如何实现的?下文将详细解析。

传统轨迹蒸馏的“细节困境”

早期的蒸馏方案[1,2]可归纳为轨迹蒸馏(Trajectory Distillation)。其核心思想是让蒸馏后的学生模型模仿教师模型在多步生成中的路径:
* 渐进蒸馏:学生模型需直接对齐教师模型多次迭代后的输出。
* 一致性蒸馏:学生模型需保证在教师模型的去噪轨迹上输出一致的结果。

然而,这类方法在低迭代步数下难以实现高质量生成,最突出的问题是生成图像模糊,近期研究[3]也证实了这一点:

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

问题的根源在于约束方式。轨迹蒸馏直接约束学生模型的生成样本,使其在特定距离度量下对齐教师模型预测的高质量输出。其损失函数可表示为:

[
mathcal{L} = mathbb{E}[d(mathbf{x}{text{student}}, mathbf{x}{text{teacher}})]
]

其中 (d) 是距离函数,(mathbf{x}_{text{teacher}}) 是教师模型经多步去噪后的输出。

该损失函数对所有图像块一视同仁,导致占比低的细节部分(如文字、人物五官)学习不充分,学生模型生成的细节常出现明显扭曲。

从样本空间到概率空间:降低缺陷样本生成概率

近期,基于概率空间的蒸馏方案在少步生成场景(4~8步)取得了巨大成功,基本解决了上述细节丢失问题。其中最具影响力的工作之一是DMD2算法[4]。

DMD2将约束从样本空间转换到概率空间,其损失函数设计为:

[
mathcal{L}{text{DMD2}} = mathbb{E}{mathbf{x} sim p_{text{student}}}[log p_{text{student}}(mathbf{x}) – log p_{text{teacher}}(mathbf{x})]
]

这是一个典型的反向KL散度蒸馏损失,其显著特性是:当 (p_{text{student}}(mathbf{x}) > 0) 而 (p_{text{teacher}}(mathbf{x}) to 0) 时,损失值会急剧增大。

这意味着,对于学生模型生成的每一张图片,如果它不符合真实图片分布(即教师模型认为其概率极低),就会导致损失“爆炸”。因此,DMD2算法的本质思想是——不直接告诉学生模型“应该模仿什么”,而是让学生模型自己生成图片,然后由教师模型指导“哪里不对”

这种反向KL散度损失的设计能显著提升生成图片的细节合理性与整体质量,已成为当前扩散模型步数蒸馏的主要策略。

热启动缓解分布退化

尽管反向KL散度损失能有效降低不合理样本的生成概率,但其本身也存在严重的模式崩溃与分布过度锐化问题[5],具体表现为生成多样性降低、饱和度增加、形体扭曲等。这些问题在2步蒸馏设定下尤为突出。

为了缓解分布退化,常见做法是给模型一个更合理的初始化[6]。该团队采用PCM[7]蒸馏进行模型热启动。实验表明,热启动后模型的形体扭曲问题得到了明显改善。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍 左图为直接进行DMD训练的结果,右图为经过PCM热启动后的2步模型生成结果。更好的初始化能有效降低不合理构图。

引入对抗学习,增强真实数据先验

如前所述,DMD2本质上是“学生生成 -> 教师指导”的过程,不依赖真实数据。这种做法有其优势与局限:
* 优势:极大提升了方案的普适性(高质量真实数据难以获取)。
* 局限:设定了性能上限——学生模型只能学习教师模型的生成分布,无法超越教师。

同时,由于损失函数设计的问题,DMD2蒸馏在生成高质量细节纹理(如苔藓、动物毛发)时效果往往不尽人意。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍 左图为原模型50步生成结果,右图为DMD2蒸馏后8步模型生成结果。在苔藓细节纹理上,DMD2生成效果不够细腻。

为了增强2步学生模型在细节上的表现能力,阿里智能引擎团队引入了对抗学习(GAN) 来提供进一步的监督。

GAN的损失可拆解为两部分:
* 生成器损失(让学生模型生成的图片骗过判别器):
[
mathcal{L}G = -mathbb{E}{mathbf{x} sim p_{text{student}}}[log D(mathbf{x})]
]
* 判别器损失(区分真实图片与生成图片):
[
mathcal{L}D = -mathbb{E}{mathbf{x} sim p_{text{data}}}[log D(mathbf{x})] – mathbb{E}{mathbf{x} sim p{text{student}}}[log (1 – D(mathbf{x}))]
]

其中,(mathbf{x}) 为学生模型生成的图片,(mathbf{x}_{text{real}}) 为训练集中的真实数据,(D(cdot)) 为判别器判断输入样本为真实数据的概率。

简而言之,对抗训练要求判别器尽可能将学生模型生成的图片判为“假”,同时要求学生模型尽可能生成能“欺骗”判别器的图片。

为了提升对抗训练的稳定性和效果,该团队进行了以下改进:
1. 真实数据混合策略:按固定比例混合高质量真实数据和教师模型生成图,以提升泛化能力和训练稳定性。
2. 引入特征提取器:使用额外的DINO模型作为特征提取器,提供更鲁棒的特征表示。
3. 调整损失权重:增加对抗训练在总损失中的占比。

实验验证表明,引入对抗训练后,学生模型的画面质感和细节表现得到了显著提升:

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

增加GAN训练显著提升了画面的真实性与细节丰富度。

结语:从应用效果出发,细节决定成败

极少数步数的扩散生成一直是一个重要的研究方向。然而,单一的算法方案受限于其原理设计,往往难以达到理想效果。

阿里巴巴智能引擎团队从实际落地效果出发,逐一发现并分析了蒸馏过程中出现的各类问题(如形体扭曲、纹理缺失),并针对性地加以解决,最终使2步生成模型达到了工业场景可落地的水准。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

尽管在大多数场景下,Wuli-Qwen-Image-Turbo的表现已能与原模型媲美,但在一些复杂场景下,受限于极少的去噪步数,仍有改进空间。团队将在后续版本中持续发布速度更快、效果更好的生成模型。

未来,团队将持续推进并迭代更多扩散加速技术,并开源相关模型权重。这些突破的背后,是团队在AI工程系统领域的长期深耕。作为阿里AI工程系统的建设者与维护者,该团队聚焦于大模型全链路工程能力建设,持续优化研发范式,专注于大模型训练推理性能优化、引擎平台、Agent应用平台等关键组件,致力于为阿里集团各业务提供高效稳定的AI工程基础设施。

智能引擎团队始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL在内的多项优秀开源项目。未来,他们期待与开源社区共同成长,将更先进的工程能力转化为触手可及的创作工具。

  • [1] Progressive Distillation for Fast Sampling of Diffusion Models
  • [2] Consistency Models
  • [3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
  • [4] Improved Distribution Matching Distillation for Fast Image Synthesis
  • [5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
  • [6] Transition Matching Distillation for Fast Video Generation
  • [7] Phased Consistency Models

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19627

(0)
上一篇 2026年1月30日 下午4:38
下一篇 2026年1月30日 下午6:43

相关推荐

  • LangChain创始人深度解析:AI智能体沙盒架构的两种核心模式与安全实践

    AI智能体需要执行代码、安装软件包、访问文件,这些操作必须在与主机系统隔离的工作空间中进行,以防止访问敏感凭证、文件或网络资源。沙盒提供了这种必要的隔离。 LangChain创始人Harrison Chase近期分析了AI智能体与沙盒集成的架构问题,指出目前存在两种核心架构模式:智能体在沙盒内运行,或者智能体在外部运行、将沙盒作为工具调用。 模式一:智能体在…

    2026年2月11日
    99600
  • 华为Flex:ai开源:异构算力池化技术如何重塑AI资源利用效率

    在AI产业高速发展的浪潮中,算力已成为驱动创新的核心燃料。然而,全球范围内普遍存在的算力资源利用率低下问题,正成为制约AI规模化应用的关键瓶颈。小模型任务独占整卡导致资源闲置,大模型任务单机算力不足难以支撑,大量缺乏GPU/NPU的通用服务器处于算力“休眠”状态——这种供需错配造成了严重的资源浪费。2023年11月21日,华为正式发布并开源AI容器技术Fle…

    2025年11月22日
    44300
  • 像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

    让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…

    2026年2月2日
    57400
  • 小模型突破计算瓶颈:WorldModel-Qwen实现推理中WASM代码执行

    最近,开发者 bigattichouse 分享了一个有趣的实验:让 Qwen-0.6B 这样的小模型在推理过程中生成并执行 WASM 代码,从而获得确定性的计算结果。 这个项目的灵感借鉴了人类思维。在关于 AGI 与 LLM 智能的讨论中,“世界模型”的概念变得越来越重要。就像人类接球时大脑会建立物理模型一样,AI 模型也需要某种形式的世界建模能力。但对于 …

    AI产业动态 2026年1月17日
    38800
  • 马斯克状告OpenAI:不要赔偿只要奥特曼下台,转身联手英特尔打造太空AI芯片

    马斯克修订诉讼:不求赔偿,只求奥特曼离开OpenAI董事会 马斯克对OpenAI的诉讼提出了关键修订。其核心诉求已不再是金钱赔偿,而是要求将萨姆·奥特曼从OpenAI非营利母公司董事会中除名。 根据修订后的诉讼文件,马斯克表示,如果胜诉,他将把所有赔偿款捐给OpenAI旗下的非营利机构。唯一的条件是奥特曼必须离开董事会。同时,OpenAI联合创始人兼总裁格雷…

    2026年4月8日
    24100