清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

现在,生成一个视频可能比你刷视频还要快。

一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9秒,速度提升约97倍。

这背后的技术,是清华大学TSAIL实验室与生数科技联合开源的视频生成加速框架——TurboDiffusion

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

新框架的发布引发了广泛关注。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

Meta研究员和伯克利教授也对其表示了肯定。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

2秒生成视频

视频生成技术一直面临速度瓶颈。生成一段高质量视频,往往需要高端显卡运行数分钟甚至数十分钟,限制了实时创作与交互。

TurboDiffusion正是为解决此问题而生。

在单张RTX 5090上,针对1.3B文生视频模型(480P):
* 原始生成:约184秒。
* TurboDiffusion:仅需1.9秒。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

这实现了约97倍的加速。

对于更大的模型,加速效果同样显著:
* 14B图生视频模型(720P):仅需38秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
* 720P文生视频模型:仅需24秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
* 14B图生视频模型(480P):仅需9.9秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

更重要的是,这种提速几乎无损。在生数科技Vidu模型上应用后,视频的动态流畅度、光影质感及指令遵循能力仍保持高水平。

在生成1080P分辨率、8秒时长的高质量视频时,TurboDiffusion将端到端生成延迟从900秒大幅降低至8秒

不同模型规模与清晰度下的加速效果总结如下:

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

TurboDiffusion为当前主流视频生成模型提供了开箱即用的优化方案,GitHub项目页提供了详细的操作指南。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

四项核心技术实现极限加速

视频生成模型(通常为Diffusion Transformer架构)速度慢,主要受限于迭代步数多、注意力计算算力重、权重搬运显存压力大。

TurboDiffusion整合了四项关键技术,精准应对这些瓶颈:

  1. SageAttention:采用自研的SageAttention2++低比特量化注意力方案,将权重和激活值压缩至INT8/INT4,通过异常值平滑等技术保持精度。注意力计算速度提升3-5倍,显存占用减半。
  2. Sparse-Linear Attention (SLA):结合稀疏性(关注重要像素)与线性计算复杂度,减少计算量。SLA可与SageAttention叠加使用,实现额外加速。
  3. rCM步数蒸馏:引入rCM(Score-regularized Continuous-time Consistency Models)进行步数蒸馏,将原本需要数十步的生成过程压缩至1-4步,同时保持质量。
  4. W8A8量化与自定义算子:对模型线性层采用W8A8量化,并利用RTX 5090的INT8 Tensor Core进行分块计算。同时,使用Triton/CUDA重写LayerNorm等基础算子,消除性能开销。

这四项技术环环相扣:蒸馏减少步数,量化降低负载,SLA和SageAttention削减算力需求,共同实现了惊人的加速效果。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

这些技术由清华大学TSAIL团队与生数科技自主研发,其意义在于:
* 消费级部署成为可能:单卡实现秒级出片,为个人创作者及中小企业提供实用工具。
* 云端推理成本骤降:延迟降低百倍,同等算力可服务更多用户。
* 推动AIGC产品创新:使实时视频编辑、交互式生成等新场景成为可能。
* 适配国产芯片:低比特、稀疏化等特性有利于在国产AI芯片上部署。

其中,SageAttention是全球首个实现注意力计算量化加速的技术方案,已集成至NVIDIA TensorRT,并在华为昇腾、摩尔线程等平台完成部署。腾讯、字节、阿里、Google等国内外科技企业也已在其核心产品中应用该技术。

迈向实时视频生成时代

从小时级到秒级,TurboDiffusion不仅是一次技术突破,更是一次范式转移。它证明高质量AI视频无需以牺牲效率为代价。

当生成速度进入人类反应时间范围(<5秒),AI将从后期工具转变为创作伙伴,实现“所想即所得”。

我们离那个实时生成的时代,或许只有2秒。

项目地址
https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址
https://arxiv.org/pdf/2512.16093


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/15187

(0)
上一篇 2025年12月25日 上午11:39
下一篇 2025年12月25日 下午12:08

相关推荐

  • DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

    R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。 此次更新,将原始论文升级为…

    2026年1月8日
    40300
  • 揭秘浮点累加顺序黑盒:FPRev工具如何解决异构计算中的数值可复现性难题

    关键词:FPRev、浮点累加顺序、数值可复现性、异构计算、浮点运算、累加顺序推断 Revealing Floating-Point Accumulation Orders in Software/Hardware Implementations https://www.usenix.org/conference/atc25/presentation/xie …

    2025年12月21日
    34400
  • SynPerf:混合分析与机器学习融合,GPU性能预测实现6.1%内核误差与1.7倍加速

    关键词:GPU 性能建模、混合建模、大语言模型、硬件泛化性、性能优化 让 AI 学会“自我审视”:在真实硬件运行前,精准预测每一行代码的执行时间。 2025 年的今天,从 Gemini 到 Llama-3,从 Qwen 到 DeepSeek,大型语言模型(LLMs)正在以前所未有的速度重塑我们的生活。这些动辄百亿、千亿参数的“数字大脑”,背后依赖的是成千上万…

    2026年2月25日
    42200
  • DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

    当长上下文成为负担:我们是否真的需要「把一切都塞进推理模型」? 随着对大模型推理能力要求的提升,输入上下文的长度也在不断增长,1M tokens 及以上的上下文窗口正逐渐成为现实。然而,“读得更长”是否必然带来推理能力的提升? 在实际应用中,情况往往并不理想。当推理模型直接处理超长原始文本时,瓶颈往往不再是“不会推理”,而是源于“读不完、读不动、读不准”:*…

    2026年3月14日
    36800
  • PaddleOCR-VL:文档理解新突破,复杂表格公式一键精准解析

    传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时,往往输出杂乱,需要大量人工整理。近期,百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。 尽管其参数量仅为 9 亿,但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分,位列榜首。在推理速度上,相比同类模型 Mine…

    2025年11月5日
    44700