清华&生数开源TurboDiffusion：视频生成加速200倍，实时创作时代来临

在2025年末，一个全新视频生成加速框架的开源，宣告了“等待数分钟才能生成一个视频”的时代已经终结。

这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。

其加速效果极为显著：在几乎不影响生成质量的前提下，主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍，同时一个5秒480p视频的生成时长能被压缩到不足2秒。

这意味着，AI视频创作进一步突破了传统的“渲染与等待”模式，来到了向“实时生成”时代转变的关键节点。这项突破迅速引起了学界的广泛关注。

TurboDiffusion无异于抛下了一颗“重磅炸弹”，击破了扩散模型生成高质量视频所面临的主要壁垒——高推理延迟。由于模型在生成高分辨率视频时需要处理大量时空信息并捕捉视频帧之间的细节与动态变化，这需要处理海量的token，导致推理耗时严重。

以往，主流扩散模型往往需要几分钟甚至几十分钟才能生成几秒的高质量视频，较高的时间延迟极大地限制了模型的实际可用性。而现在，随着加速框架TurboDiffusion的开源，视频生成的等待时间被大大缩短，更能满足实时生成的需求。

目前，TurboDiffusion在GitHub上已经收获2k Star，社区关注度持续提升。

项目地址：https://github.com/thu-ml/TurboDiffusion

现在，用户可以体验TurboDiffusion支持下的高效文生视频、图生视频的模型版本。

这不禁令人好奇，TurboDiffusion究竟采用了哪些技术手段，才能实现视频生成推理速度的百倍提升？

TurboDiffusion：扩散模型视频加速的更优解

通过公开的TurboDiffusion技术报告，我们对其采用的训推及优化策略有了更多了解。

GitHub：https://github.com/thu-ml/TurboDiffusion
技术报告：https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf

作为一项复杂的工程性任务，扩散模型在视频生成加速上面临的核心难点是：如何既能保持生成质量，又能系统性地完成减少计算量、加速推理并保证不同模态协同一致性等多个目标。

这些挑战涉及架构设计、硬件适配、策略优化等多个方面，需要在算法和系统协同的基础上进行有的放矢的精细化处理。TurboDiffusion通过一系列创新技术，成功克服了传统AI视频在生成效率方面的主要瓶颈。

其中，在推理阶段采用的混合注意力加速、高效步数蒸馏以及W8A8线性层量化等“四大核心技术”，成为视频生成百倍加速的关键驱动力，它们均由清华大学TSAIL团队联合生数科技自主研发。

首先是混合注意力加速（Attention Acceleration），包括两项正交的注意力加速技术，即SageAttention和Sparse-Linear Attention（SLA）。

其中，使用SageAttention进行低比特量化注意力加速。它是一系列通过量化实现高效注意力机制的工作，自2024年10月以来陆续推出了V1、V2和V3，能够在无损准确率的情况下，在大多数GPU上实现即插即用的加速效果。TurboDiffusion使用的是“SageAttention2++”变体。

项目地址：https://github.com/thu-ml/SageAttention

同时，TurboDiffusion使用Sparse-Linear Attention（SLA）实现稀疏注意力加速。作为一种可训练的注意力方法，SLA结合使用稀疏注意力和线性注意力来加速扩散模型的计算过程。

SLA架构示意图，图左展示了高层次思路，注意力权重被分为三类，并分配给不同复杂度的计算；图右展示了使用预测的压缩注意力权重的SLA前向算法。图源：https://github.com/thu-ml/SLA

不仅如此，由于稀疏计算与低比特Tensor Core加速是正交的，SLA可以构建在SageAttention之上，两者的共同作用在推理过程中进一步获得了数倍的额外加速。

接下来是高效步数蒸馏（Step Distillation），具体表现为引入了rCM蒸馏方法。

rCM通过引入分数正则化和连续时间一致性的概念，优化扩散模型生成视频的时间步长，从而以更少的采样步数完成生成任务，比如将采样步数从原本的100步大幅减少到极小值（3到4步），并能保持最佳视频质量。

使用蒸馏后的Wan2.1 T2V 14B生成的5个随机视频，生成过程中采用了4步采样。图源：https://github.com/NVlabs/rcm

最后是W8A8线性层量化（Linear Layer Quantization）。

TurboDiffusion对线性层的参数（模型权重）和激活值（Activations）进行8-bit量化，过程中在128×128的块粒度上进行分块量化。这种量化方式将模型大小压缩约一半，并利用INT8 Tensor Cores加速线性层计算。

得益于以上四项核心技术的协同作用，TurboDiffusion的视频生成加速效果被提升到了前所未有的水平。加之训练阶段的并行训练策略，进一步平衡了推理效率和生成质量。

整体训练过程分为两部分并行进行：一是将预训练模型的全注意力替换为稀疏线性注意力（SLA）并进行微调，减少注意力计算的复杂度，降低计算资源消耗；二是使用rCM将预训练模型蒸馏为少步数学生模型，通过减少采样步数加速生成过程。最后将SLA微调和rCM训练的参数更新合并到一个单一模型中，进一步提升模型推理速度和生成质量。

此外，TurboDiffusion还采用其他一些优化策略，比如使用Triton或CUDA重新实现LayerNorm和RMSNorm等操作，以获得更高的执行效率。

多项推理加速技术加持下，视频生成时长从4767秒降至24秒，提速近200倍。

这套技术组合拳验证了：在不牺牲视频表现力的前提下，扩散模型仍具备巨大的压缩与提速空间，为未来更大规模模型的实时部署提供了可借鉴的标准范式。

尤其是推理阶段的四项核心技术对AI多模态大模型的技术突破与产业落地具有里程碑式的价值与深远影响力。其中SageAttention更是全球首个实现注意力计算量化加速的技术方案，已被工业界大规模部署应用。

例如，SageAttention已成功集成至NVIDIA推理引擎TensorRT，同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。此外，腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM等国内外头部科技企业及团队，均已在核心产品中应用该技术，凭借其卓越性能创造了可观的经济效益。

单张消费级显卡，不到2秒生成高清视频

TurboDiffusion在技术层面的领先性，为其在实战中的惊艳效果做好了铺垫。

先来看图生视频的加速效果。

以 14B 大小的模型生成 5 秒 720p 的视频为例，TurboDiffusion 可以在单张 RTX 5090 上实现几乎无损的端到端 119 倍加速。

上图展示了基线模型与引入 TurboDiffusion 后的生成时长与效果对比。

文生视频的加速效果同样突出。

以 1.3B 大小的模型生成 5 秒 480p 的视频为例，在单张消费级显卡 RTX 5090 上，使用官方实现需要 184 秒才能生成。引入 TurboDiffusion 之后，则仅需 1.9 秒即可完成，速度提升了 97 倍。

上图对比了基线模型、引入已有加速方案（FastVideo）以及引入 TurboDiffusion 后的生成时长与效果。

对于 14B 大小的模型生成 5 秒 720p 的视频，TurboDiffusion 的加速效果更加显著。从下图可以看到，在单张 RTX 5090 上，生成时长从 4767 秒锐减到 24 秒，实现了几乎无损的端到端 200 倍加速。

上图对比了基线模型、引入已有加速方案（FastVideo）以及引入 TurboDiffusion 后的生成时长与效果。

在生数科技自研的 Vidu 模型上，TurboDiffusion 的加入也可以在不损失视频生成质量的前提下，获得极高的推理加速效果。

举例来说，在生成 8 秒 1080p 的视频时，相较于没有任何推理加速优化的方案，TurboDiffusion 将端到端的生成延迟从 900 秒提速到了 8 秒。

加速前后，视频生成质量依然保持在较高水准。

2025 年可谓是 AI 视频生成爆发的一年，从年初到年末，国内外头部大模型厂商「上新」的节奏一直没有停下。这一年里，视频生成模型不仅在画质和时长上取得了突破，也在物理规律理解、音画同步生成等多个维度实现质的飞跃。

如今，TurboDiffusion 加速框架的引入，开启了秒级生成与实时交互视频创作新范式的关键转折点。一方面，高端视频创作能力从昂贵的 H100 等显卡下沉到个人创作者能负担起的消费级显卡，极大降低了算力门槛。另一方面，随着视频生成从「离线等待」无限接近「实时预览」，创作者可以通过快速调整提示词获得即时反馈，提升了艺术探索的上限。

未来，包括 TurboDiffusion 在内的视频生成加速技术势必会更加成熟。我们可以想象，更长时长的 1080p 甚至 4k 分辨率的视频同样可以做到实时生成。到那时，AI 视频直播、个性化视频流、AR/VR 实时内容渲染等需要即时反馈的应用场景有望更快更好地落地。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15290

清华&生数开源TurboDiffusion：视频生成加速200倍，实时创作时代来临

TurboDiffusion：扩散模型视频加速的更优解

单张消费级显卡，不到2秒生成高清视频

相关推荐

微信AI突破扩散模型推理瓶颈：WeDLM实现vLLM部署3倍加速，低熵场景超10倍

揭秘浮点累加顺序黑盒：FPRev工具如何解决异构计算中的数值可复现性难题

SynPerf：混合分析与机器学习融合，GPU性能预测实现6.1%内核误差与1.7倍加速

清华MARSHAL框架：通过策略游戏自博弈激发大模型的多智能体推理泛化能力

美团LongCat技术突破：LoZA稀疏注意力机制实现10倍解码加速，轻松驾驭百万级长文本