清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。

这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。

其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被压缩到不足2秒。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

这意味着,AI视频创作进一步突破了传统的“渲染与等待”模式,来到了向“实时生成”时代转变的关键节点。这项突破迅速引起了学界的广泛关注。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临
清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临
清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

TurboDiffusion无异于抛下了一颗“重磅炸弹”,击破了扩散模型生成高质量视频所面临的主要壁垒——高推理延迟。由于模型在生成高分辨率视频时需要处理大量时空信息并捕捉视频帧之间的细节与动态变化,这需要处理海量的token,导致推理耗时严重。

以往,主流扩散模型往往需要几分钟甚至几十分钟才能生成几秒的高质量视频,较高的时间延迟极大地限制了模型的实际可用性。而现在,随着加速框架TurboDiffusion的开源,视频生成的等待时间被大大缩短,更能满足实时生成的需求。

目前,TurboDiffusion在GitHub上已经收获2k Star,社区关注度持续提升。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

项目地址:https://github.com/thu-ml/TurboDiffusion

现在,用户可以体验TurboDiffusion支持下的高效文生视频、图生视频的模型版本。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

这不禁令人好奇,TurboDiffusion究竟采用了哪些技术手段,才能实现视频生成推理速度的百倍提升?

TurboDiffusion:扩散模型视频加速的更优解

通过公开的TurboDiffusion技术报告,我们对其采用的训推及优化策略有了更多了解。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

  • GitHub:https://github.com/thu-ml/TurboDiffusion
  • 技术报告:https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf

作为一项复杂的工程性任务,扩散模型在视频生成加速上面临的核心难点是:如何既能保持生成质量,又能系统性地完成减少计算量、加速推理并保证不同模态协同一致性等多个目标。

这些挑战涉及架构设计、硬件适配、策略优化等多个方面,需要在算法和系统协同的基础上进行有的放矢的精细化处理。TurboDiffusion通过一系列创新技术,成功克服了传统AI视频在生成效率方面的主要瓶颈。

其中,在推理阶段采用的混合注意力加速、高效步数蒸馏以及W8A8线性层量化等“四大核心技术”,成为视频生成百倍加速的关键驱动力,它们均由清华大学TSAIL团队联合生数科技自主研发。

首先是混合注意力加速(Attention Acceleration),包括两项正交的注意力加速技术,即SageAttention和Sparse-Linear Attention(SLA)。

其中,使用SageAttention进行低比特量化注意力加速。它是一系列通过量化实现高效注意力机制的工作,自2024年10月以来陆续推出了V1、V2和V3,能够在无损准确率的情况下,在大多数GPU上实现即插即用的加速效果。TurboDiffusion使用的是“SageAttention2++”变体。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

项目地址:https://github.com/thu-ml/SageAttention

同时,TurboDiffusion使用Sparse-Linear Attention(SLA)实现稀疏注意力加速。作为一种可训练的注意力方法,SLA结合使用稀疏注意力和线性注意力来加速扩散模型的计算过程。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

SLA架构示意图,图左展示了高层次思路,注意力权重被分为三类,并分配给不同复杂度的计算;图右展示了使用预测的压缩注意力权重的SLA前向算法。图源:https://github.com/thu-ml/SLA

不仅如此,由于稀疏计算与低比特Tensor Core加速是正交的,SLA可以构建在SageAttention之上,两者的共同作用在推理过程中进一步获得了数倍的额外加速。

接下来是高效步数蒸馏(Step Distillation),具体表现为引入了rCM蒸馏方法。

rCM通过引入分数正则化和连续时间一致性的概念,优化扩散模型生成视频的时间步长,从而以更少的采样步数完成生成任务,比如将采样步数从原本的100步大幅减少到极小值(3到4步),并能保持最佳视频质量。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

使用蒸馏后的Wan2.1 T2V 14B生成的5个随机视频,生成过程中采用了4步采样。图源:https://github.com/NVlabs/rcm

最后是W8A8线性层量化(Linear Layer Quantization)

TurboDiffusion对线性层的参数(模型权重)和激活值(Activations)进行8-bit量化,过程中在128×128的块粒度上进行分块量化。这种量化方式将模型大小压缩约一半,并利用INT8 Tensor Cores加速线性层计算。

得益于以上四项核心技术的协同作用,TurboDiffusion的视频生成加速效果被提升到了前所未有的水平。加之训练阶段的并行训练策略,进一步平衡了推理效率和生成质量。

整体训练过程分为两部分并行进行:一是将预训练模型的全注意力替换为稀疏线性注意力(SLA)并进行微调,减少注意力计算的复杂度,降低计算资源消耗;二是使用rCM将预训练模型蒸馏为少步数学生模型,通过减少采样步数加速生成过程。最后将SLA微调和rCM训练的参数更新合并到一个单一模型中,进一步提升模型推理速度和生成质量。

此外,TurboDiffusion还采用其他一些优化策略,比如使用Triton或CUDA重新实现LayerNorm和RMSNorm等操作,以获得更高的执行效率。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

多项推理加速技术加持下,视频生成时长从4767秒降至24秒,提速近200倍。

这套技术组合拳验证了:在不牺牲视频表现力的前提下,扩散模型仍具备巨大的压缩与提速空间,为未来更大规模模型的实时部署提供了可借鉴的标准范式。

尤其是推理阶段的四项核心技术对AI多模态大模型的技术突破与产业落地具有里程碑式的价值与深远影响力。其中SageAttention更是全球首个实现注意力计算量化加速的技术方案,已被工业界大规模部署应用。

例如,SageAttention已成功集成至NVIDIA推理引擎TensorRT,同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。此外,腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM等国内外头部科技企业及团队,均已在核心产品中应用该技术,凭借其卓越性能创造了可观的经济效益。

单张消费级显卡,不到2秒生成高清视频

TurboDiffusion在技术层面的领先性,为其在实战中的惊艳效果做好了铺垫。

先来看图生视频的加速效果。

以 14B 大小的模型生成 5 秒 720p 的视频为例,TurboDiffusion 可以在单张 RTX 5090 上实现几乎无损的端到端 119 倍加速。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

上图展示了基线模型与引入 TurboDiffusion 后的生成时长与效果对比。

文生视频的加速效果同样突出。

以 1.3B 大小的模型生成 5 秒 480p 的视频为例,在单张消费级显卡 RTX 5090 上,使用官方实现需要 184 秒才能生成。引入 TurboDiffusion 之后,则仅需 1.9 秒即可完成,速度提升了 97 倍。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

上图对比了基线模型、引入已有加速方案(FastVideo)以及引入 TurboDiffusion 后的生成时长与效果。

对于 14B 大小的模型生成 5 秒 720p 的视频,TurboDiffusion 的加速效果更加显著。从下图可以看到,在单张 RTX 5090 上,生成时长从 4767 秒锐减到 24 秒,实现了几乎无损的端到端 200 倍加速。

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

上图对比了基线模型、引入已有加速方案(FastVideo)以及引入 TurboDiffusion 后的生成时长与效果。

在生数科技自研的 Vidu 模型上,TurboDiffusion 的加入也可以在不损失视频生成质量的前提下,获得极高的推理加速效果。

举例来说,在生成 8 秒 1080p 的视频时,相较于没有任何推理加速优化的方案,TurboDiffusion 将端到端的生成延迟从 900 秒提速到了 8 秒。

加速前后,视频生成质量依然保持在较高水准。

2025 年可谓是 AI 视频生成爆发的一年,从年初到年末,国内外头部大模型厂商「上新」的节奏一直没有停下。这一年里,视频生成模型不仅在画质和时长上取得了突破,也在物理规律理解、音画同步生成等多个维度实现质的飞跃。

如今,TurboDiffusion 加速框架的引入,开启了秒级生成与实时交互视频创作新范式的关键转折点。一方面,高端视频创作能力从昂贵的 H100 等显卡下沉到个人创作者能负担起的消费级显卡,极大降低了算力门槛。另一方面,随着视频生成从「离线等待」无限接近「实时预览」,创作者可以通过快速调整提示词获得即时反馈,提升了艺术探索的上限。

未来,包括 TurboDiffusion 在内的视频生成加速技术势必会更加成熟。我们可以想象,更长时长的 1080p 甚至 4k 分辨率的视频同样可以做到实时生成。到那时,AI 视频直播、个性化视频流、AR/VR 实时内容渲染等需要即时反馈的应用场景有望更快更好地落地。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15290

(0)
上一篇 2025年12月26日 下午12:05
下一篇 2025年12月26日 下午12:16

相关推荐

  • OpenAI o1突破语言理解极限:首次展现匹敌人类语言学家的元分析能力

    导读:LLM再下一城!伯克利研究证明,OpenAI的o1展现出匹敌人类语言学家的元分析能力。 在人类诸多才能中,语言常被视为最独特的标志。自亚里士多德将人定义为“具有语言的动物”以来,这一观点便深入人心。 尽管当前的大语言模型(如ChatGPT)已能流畅地进行日常对话,但一个根本性问题依然存在:人类语言的深层结构与特质,是否超越了AI的运算体系? 为了探究这…

    2025年11月8日
    7800
  • vLLM Playground:可视化界面让大模型推理部署零门槛

    用过 vLLM 的人都知道,它功能强大,但上手门槛不低。命令行参数繁多,容器配置复杂,生产部署更是令人头疼。 今天介绍的开源项目 vLLM Playground 正是为了解决这些问题而生。它提供了一个可视化的 vLLM 管理界面,让大模型的部署和使用变得简单直观。 真正的零配置 最便捷之处在于你无需手动安装 vLLM。只需打开 Web 界面,点击“Start…

    2025年12月29日
    8600
  • 阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损

    关键词:VLCache、视觉语言模型(VLM)、KV缓存复用、动态重计算、推理加速、精度保留 你有没有遇到过这样的场景:用 AI 工具连续询问同一张图片的不同问题时,每次都要等待好几秒才能得到回复?明明图片没有变,模型却要重复处理整幅图像,造成大量冗余计算。 VLCACHE: Computing 2% Vision Tokens and Reusing 98…

    2026年1月8日
    9000
  • Unsloth革命:手机端大模型部署实战,40-50 token/s流畅体验揭秘

    想在手机上流畅运行语言模型?过去常常面临速度缓慢或精度严重下降的困境。现在,借助Unsloth发布的完整教程,可以将其平台微调的模型直接部署到Pixel 8和iPhone 15 Pro等设备上。 其核心技术是Meta应用于Instagram和WhatsApp的ExecuTorch。该技术专为移动端优化,能够充分利用ARM处理器的NEON指令集,并调用手机NP…

    2025年12月21日
    11400
  • 英伟达200亿美元豪购Groq:黄仁勋的AI推理野心与LPU芯片的颠覆性革命

    这个圣诞节,英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易,涉及金额高达200亿美元(约合人民币1405亿元)。 根据Groq官方声明,交易的核心内容是英伟达获得了Groq推理技术的授权,同时,Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…

    2025年12月25日
    8000