清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

现在,生成一个视频可能比你刷视频还要快。

一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9秒,速度提升约97倍。

这背后的技术,是清华大学TSAIL实验室与生数科技联合开源的视频生成加速框架——TurboDiffusion

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

新框架的发布引发了广泛关注。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

Meta研究员和伯克利教授也对其表示了肯定。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

2秒生成视频

视频生成技术一直面临速度瓶颈。生成一段高质量视频,往往需要高端显卡运行数分钟甚至数十分钟,限制了实时创作与交互。

TurboDiffusion正是为解决此问题而生。

在单张RTX 5090上,针对1.3B文生视频模型(480P):
* 原始生成:约184秒。
* TurboDiffusion:仅需1.9秒。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

这实现了约97倍的加速。

对于更大的模型,加速效果同样显著:
* 14B图生视频模型(720P):仅需38秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
* 720P文生视频模型:仅需24秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
* 14B图生视频模型(480P):仅需9.9秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

更重要的是,这种提速几乎无损。在生数科技Vidu模型上应用后,视频的动态流畅度、光影质感及指令遵循能力仍保持高水平。

在生成1080P分辨率、8秒时长的高质量视频时,TurboDiffusion将端到端生成延迟从900秒大幅降低至8秒

不同模型规模与清晰度下的加速效果总结如下:

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

TurboDiffusion为当前主流视频生成模型提供了开箱即用的优化方案,GitHub项目页提供了详细的操作指南。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

四项核心技术实现极限加速

视频生成模型(通常为Diffusion Transformer架构)速度慢,主要受限于迭代步数多、注意力计算算力重、权重搬运显存压力大。

TurboDiffusion整合了四项关键技术,精准应对这些瓶颈:

  1. SageAttention:采用自研的SageAttention2++低比特量化注意力方案,将权重和激活值压缩至INT8/INT4,通过异常值平滑等技术保持精度。注意力计算速度提升3-5倍,显存占用减半。
  2. Sparse-Linear Attention (SLA):结合稀疏性(关注重要像素)与线性计算复杂度,减少计算量。SLA可与SageAttention叠加使用,实现额外加速。
  3. rCM步数蒸馏:引入rCM(Score-regularized Continuous-time Consistency Models)进行步数蒸馏,将原本需要数十步的生成过程压缩至1-4步,同时保持质量。
  4. W8A8量化与自定义算子:对模型线性层采用W8A8量化,并利用RTX 5090的INT8 Tensor Core进行分块计算。同时,使用Triton/CUDA重写LayerNorm等基础算子,消除性能开销。

这四项技术环环相扣:蒸馏减少步数,量化降低负载,SLA和SageAttention削减算力需求,共同实现了惊人的加速效果。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

这些技术由清华大学TSAIL团队与生数科技自主研发,其意义在于:
* 消费级部署成为可能:单卡实现秒级出片,为个人创作者及中小企业提供实用工具。
* 云端推理成本骤降:延迟降低百倍,同等算力可服务更多用户。
* 推动AIGC产品创新:使实时视频编辑、交互式生成等新场景成为可能。
* 适配国产芯片:低比特、稀疏化等特性有利于在国产AI芯片上部署。

其中,SageAttention是全球首个实现注意力计算量化加速的技术方案,已集成至NVIDIA TensorRT,并在华为昇腾、摩尔线程等平台完成部署。腾讯、字节、阿里、Google等国内外科技企业也已在其核心产品中应用该技术。

迈向实时视频生成时代

从小时级到秒级,TurboDiffusion不仅是一次技术突破,更是一次范式转移。它证明高质量AI视频无需以牺牲效率为代价。

当生成速度进入人类反应时间范围(<5秒),AI将从后期工具转变为创作伙伴,实现“所想即所得”。

我们离那个实时生成的时代,或许只有2秒。

项目地址
https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址
https://arxiv.org/pdf/2512.16093


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15187

(0)
上一篇 2025年12月25日 上午11:39
下一篇 2025年12月25日 下午12:08

相关推荐