清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

2025年12月25日下午12:05 • 大模型推理 • 阅读 371

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

现在，生成一个视频可能比你刷视频还要快。

一个开源新框架，能让视频生成在保证质量的情况下，最高提速200多倍，并且仅需单张显卡即可实现。

以1.3B参数、480P分辨率的模型为例，在单张RTX 5090上生成一段5秒视频，原始方法需要约184秒。而采用新框架后，时间缩短至1.9秒，速度提升约97倍。

这背后的技术，是清华大学TSAIL实验室与生数科技联合开源的视频生成加速框架——TurboDiffusion。

新框架的发布引发了广泛关注。

Meta研究员和伯克利教授也对其表示了肯定。

2秒生成视频

视频生成技术一直面临速度瓶颈。生成一段高质量视频，往往需要高端显卡运行数分钟甚至数十分钟，限制了实时创作与交互。

TurboDiffusion正是为解决此问题而生。

在单张RTX 5090上，针对1.3B文生视频模型（480P）：
* 原始生成：约184秒。
* TurboDiffusion：仅需1.9秒。

这实现了约97倍的加速。

对于更大的模型，加速效果同样显著：
* 14B图生视频模型（720P）：仅需38秒。

* 720P文生视频模型：仅需24秒。

* 14B图生视频模型（480P）：仅需9.9秒。

更重要的是，这种提速几乎无损。在生数科技Vidu模型上应用后，视频的动态流畅度、光影质感及指令遵循能力仍保持高水平。

在生成1080P分辨率、8秒时长的高质量视频时，TurboDiffusion将端到端生成延迟从900秒大幅降低至8秒。

不同模型规模与清晰度下的加速效果总结如下：

TurboDiffusion为当前主流视频生成模型提供了开箱即用的优化方案，GitHub项目页提供了详细的操作指南。

四项核心技术实现极限加速

视频生成模型（通常为Diffusion Transformer架构）速度慢，主要受限于迭代步数多、注意力计算算力重、权重搬运显存压力大。

TurboDiffusion整合了四项关键技术，精准应对这些瓶颈：

SageAttention：采用自研的SageAttention2++低比特量化注意力方案，将权重和激活值压缩至INT8/INT4，通过异常值平滑等技术保持精度。注意力计算速度提升3-5倍，显存占用减半。
Sparse-Linear Attention (SLA)：结合稀疏性（关注重要像素）与线性计算复杂度，减少计算量。SLA可与SageAttention叠加使用，实现额外加速。
rCM步数蒸馏：引入rCM（Score-regularized Continuous-time Consistency Models）进行步数蒸馏，将原本需要数十步的生成过程压缩至1-4步，同时保持质量。
W8A8量化与自定义算子：对模型线性层采用W8A8量化，并利用RTX 5090的INT8 Tensor Core进行分块计算。同时，使用Triton/CUDA重写LayerNorm等基础算子，消除性能开销。

这四项技术环环相扣：蒸馏减少步数，量化降低负载，SLA和SageAttention削减算力需求，共同实现了惊人的加速效果。

这些技术由清华大学TSAIL团队与生数科技自主研发，其意义在于：
* 消费级部署成为可能：单卡实现秒级出片，为个人创作者及中小企业提供实用工具。
* 云端推理成本骤降：延迟降低百倍，同等算力可服务更多用户。
* 推动AIGC产品创新：使实时视频编辑、交互式生成等新场景成为可能。
* 适配国产芯片：低比特、稀疏化等特性有利于在国产AI芯片上部署。

其中，SageAttention是全球首个实现注意力计算量化加速的技术方案，已集成至NVIDIA TensorRT，并在华为昇腾、摩尔线程等平台完成部署。腾讯、字节、阿里、Google等国内外科技企业也已在其核心产品中应用该技术。

迈向实时视频生成时代

从小时级到秒级，TurboDiffusion不仅是一次技术突破，更是一次范式转移。它证明高质量AI视频无需以牺牲效率为代价。

当生成速度进入人类反应时间范围（<5秒），AI将从后期工具转变为创作伙伴，实现“所想即所得”。

我们离那个实时生成的时代，或许只有2秒。

项目地址：
https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址：
https://arxiv.org/pdf/2512.16093

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/15187

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

2秒生成视频

四项核心技术实现极限加速

迈向实时视频生成时代

相关推荐

DeepSeek R1爆更86页论文：开源模型如何用强化学习实现推理能力突破

揭秘浮点累加顺序黑盒：FPRev工具如何解决异构计算中的数值可复现性难题

SynPerf：混合分析与机器学习融合，GPU性能预测实现6.1%内核误差与1.7倍加速

DRIFT框架：将知识获取与逻辑推理解耦，破解长上下文推理效率瓶颈

PaddleOCR-VL：文档理解新突破，复杂表格公式一键精准解析