阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍

AI生成一张图片,你愿意等多久?

当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。

该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成的图片,现在几乎在“眨眼之间”就能完成。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

目前,相关模型Checkpoint已在HuggingFace和ModelScope平台发布:
* HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
* ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

该模型也已集成至呜哩AI平台(https://www.wuli.art)供调用。

这种高效的蒸馏方案是如何实现的?下文将详细解析。

传统轨迹蒸馏的“细节困境”

早期的蒸馏方案[1,2]可归纳为轨迹蒸馏(Trajectory Distillation)。其核心思想是让蒸馏后的学生模型模仿教师模型在多步生成中的路径:
* 渐进蒸馏:学生模型需直接对齐教师模型多次迭代后的输出。
* 一致性蒸馏:学生模型需保证在教师模型的去噪轨迹上输出一致的结果。

然而,这类方法在低迭代步数下难以实现高质量生成,最突出的问题是生成图像模糊,近期研究[3]也证实了这一点:

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

问题的根源在于约束方式。轨迹蒸馏直接约束学生模型的生成样本,使其在特定距离度量下对齐教师模型预测的高质量输出。其损失函数可表示为:

[
mathcal{L} = mathbb{E}[d(mathbf{x}{text{student}}, mathbf{x}{text{teacher}})]
]

其中 (d) 是距离函数,(mathbf{x}_{text{teacher}}) 是教师模型经多步去噪后的输出。

该损失函数对所有图像块一视同仁,导致占比低的细节部分(如文字、人物五官)学习不充分,学生模型生成的细节常出现明显扭曲。

从样本空间到概率空间:降低缺陷样本生成概率

近期,基于概率空间的蒸馏方案在少步生成场景(4~8步)取得了巨大成功,基本解决了上述细节丢失问题。其中最具影响力的工作之一是DMD2算法[4]。

DMD2将约束从样本空间转换到概率空间,其损失函数设计为:

[
mathcal{L}{text{DMD2}} = mathbb{E}{mathbf{x} sim p_{text{student}}}[log p_{text{student}}(mathbf{x}) – log p_{text{teacher}}(mathbf{x})]
]

这是一个典型的反向KL散度蒸馏损失,其显著特性是:当 (p_{text{student}}(mathbf{x}) > 0) 而 (p_{text{teacher}}(mathbf{x}) to 0) 时,损失值会急剧增大。

这意味着,对于学生模型生成的每一张图片,如果它不符合真实图片分布(即教师模型认为其概率极低),就会导致损失“爆炸”。因此,DMD2算法的本质思想是——不直接告诉学生模型“应该模仿什么”,而是让学生模型自己生成图片,然后由教师模型指导“哪里不对”

这种反向KL散度损失的设计能显著提升生成图片的细节合理性与整体质量,已成为当前扩散模型步数蒸馏的主要策略。

热启动缓解分布退化

尽管反向KL散度损失能有效降低不合理样本的生成概率,但其本身也存在严重的模式崩溃与分布过度锐化问题[5],具体表现为生成多样性降低、饱和度增加、形体扭曲等。这些问题在2步蒸馏设定下尤为突出。

为了缓解分布退化,常见做法是给模型一个更合理的初始化[6]。该团队采用PCM[7]蒸馏进行模型热启动。实验表明,热启动后模型的形体扭曲问题得到了明显改善。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍 左图为直接进行DMD训练的结果,右图为经过PCM热启动后的2步模型生成结果。更好的初始化能有效降低不合理构图。

引入对抗学习,增强真实数据先验

如前所述,DMD2本质上是“学生生成 -> 教师指导”的过程,不依赖真实数据。这种做法有其优势与局限:
* 优势:极大提升了方案的普适性(高质量真实数据难以获取)。
* 局限:设定了性能上限——学生模型只能学习教师模型的生成分布,无法超越教师。

同时,由于损失函数设计的问题,DMD2蒸馏在生成高质量细节纹理(如苔藓、动物毛发)时效果往往不尽人意。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍 左图为原模型50步生成结果,右图为DMD2蒸馏后8步模型生成结果。在苔藓细节纹理上,DMD2生成效果不够细腻。

为了增强2步学生模型在细节上的表现能力,阿里智能引擎团队引入了对抗学习(GAN) 来提供进一步的监督。

GAN的损失可拆解为两部分:
* 生成器损失(让学生模型生成的图片骗过判别器):
[
mathcal{L}G = -mathbb{E}{mathbf{x} sim p_{text{student}}}[log D(mathbf{x})]
]
* 判别器损失(区分真实图片与生成图片):
[
mathcal{L}D = -mathbb{E}{mathbf{x} sim p_{text{data}}}[log D(mathbf{x})] – mathbb{E}{mathbf{x} sim p{text{student}}}[log (1 – D(mathbf{x}))]
]

其中,(mathbf{x}) 为学生模型生成的图片,(mathbf{x}_{text{real}}) 为训练集中的真实数据,(D(cdot)) 为判别器判断输入样本为真实数据的概率。

简而言之,对抗训练要求判别器尽可能将学生模型生成的图片判为“假”,同时要求学生模型尽可能生成能“欺骗”判别器的图片。

为了提升对抗训练的稳定性和效果,该团队进行了以下改进:
1. 真实数据混合策略:按固定比例混合高质量真实数据和教师模型生成图,以提升泛化能力和训练稳定性。
2. 引入特征提取器:使用额外的DINO模型作为特征提取器,提供更鲁棒的特征表示。
3. 调整损失权重:增加对抗训练在总损失中的占比。

实验验证表明,引入对抗训练后,学生模型的画面质感和细节表现得到了显著提升:

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

增加GAN训练显著提升了画面的真实性与细节丰富度。

结语:从应用效果出发,细节决定成败

极少数步数的扩散生成一直是一个重要的研究方向。然而,单一的算法方案受限于其原理设计,往往难以达到理想效果。

阿里巴巴智能引擎团队从实际落地效果出发,逐一发现并分析了蒸馏过程中出现的各类问题(如形体扭曲、纹理缺失),并针对性地加以解决,最终使2步生成模型达到了工业场景可落地的水准。

阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

尽管在大多数场景下,Wuli-Qwen-Image-Turbo的表现已能与原模型媲美,但在一些复杂场景下,受限于极少的去噪步数,仍有改进空间。团队将在后续版本中持续发布速度更快、效果更好的生成模型。

未来,团队将持续推进并迭代更多扩散加速技术,并开源相关模型权重。这些突破的背后,是团队在AI工程系统领域的长期深耕。作为阿里AI工程系统的建设者与维护者,该团队聚焦于大模型全链路工程能力建设,持续优化研发范式,专注于大模型训练推理性能优化、引擎平台、Agent应用平台等关键组件,致力于为阿里集团各业务提供高效稳定的AI工程基础设施。

智能引擎团队始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL在内的多项优秀开源项目。未来,他们期待与开源社区共同成长,将更先进的工程能力转化为触手可及的创作工具。

  • [1] Progressive Distillation for Fast Sampling of Diffusion Models
  • [2] Consistency Models
  • [3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
  • [4] Improved Distribution Matching Distillation for Fast Image Synthesis
  • [5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
  • [6] Transition Matching Distillation for Fast Video Generation
  • [7] Phased Consistency Models

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19627

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • 实战指南:基于LangChain与FastAPI构建实时多工具AI智能体

    构建一个可用于生产的、工具增强型 LLM Agent,使其具备 Token 流式输出、代码执行、搜索能力,并利用 FastAPI 实现高性能 API 服务。 ChatGPT 的出现带来了震撼的体验,但开发者很快开始思考:如何超越“聊天”本身?我们能否构建一个能够实时推理、联网搜索、执行代码、查询数据,并像人类打字一样流式响应的智能体? 答案是肯定的。通过结合…

    2025年12月13日
    8500
  • 2026年自动化加速利器:13个Python库提升开发效率

    在不同项目里反复做同样的事会耗尽你的时间和注意力。原本几秒钟就该跑完的代码,常常变成缓慢而凌乱的流程。许多开发者把数小时花在本可以交给库即时处理的工作上。 选对库可以消除摩擦、加速自动化。它们让你把精力放在解决问题上,而不是管理样板代码。借助这些工具,重复性工作会更快、更少出错。 1. Ovld 🦄 Ovld 允许你按参数类型对 Python 函数进行重载,…

    2025年12月21日
    10600
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…

    2025年12月20日
    8000
  • 强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

    强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题 在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会管用吗? 近期,一项由西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作开展的研究系统性探索了这一重要问题。 论文链接: …

    2025年12月20日
    8000
  • Vibe Coding革新AI Infra:文本驱动设计文档破解复杂系统开发难题

    Andrej Karpathy 力荐的 Vibe Coding 正成为开发者的新宠。这种“只需聊一聊,AI 就能把功能写出来”的体验,极大地提升了简单任务的开发效率。 然而,当我们将目光转向实际的复杂系统,特别是 AI 基础设施(AI Infra)领域时,Vibe Coding 往往会陷入“水土不服”的困境。 总结下来,主要有三方面问题: 上下文丢失:对话历…

    2026年1月7日
    10200