清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

现在,生成一个视频可能比你刷视频还要快。

一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9秒,速度提升约97倍。

这背后的技术,是清华大学TSAIL实验室与生数科技联合开源的视频生成加速框架——TurboDiffusion

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

新框架的发布引发了广泛关注。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

Meta研究员和伯克利教授也对其表示了肯定。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

2秒生成视频

视频生成技术一直面临速度瓶颈。生成一段高质量视频,往往需要高端显卡运行数分钟甚至数十分钟,限制了实时创作与交互。

TurboDiffusion正是为解决此问题而生。

在单张RTX 5090上,针对1.3B文生视频模型(480P):
* 原始生成:约184秒。
* TurboDiffusion:仅需1.9秒。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

这实现了约97倍的加速。

对于更大的模型,加速效果同样显著:
* 14B图生视频模型(720P):仅需38秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
* 720P文生视频模型:仅需24秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
* 14B图生视频模型(480P):仅需9.9秒。
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

更重要的是,这种提速几乎无损。在生数科技Vidu模型上应用后,视频的动态流畅度、光影质感及指令遵循能力仍保持高水平。

在生成1080P分辨率、8秒时长的高质量视频时,TurboDiffusion将端到端生成延迟从900秒大幅降低至8秒

不同模型规模与清晰度下的加速效果总结如下:

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

TurboDiffusion为当前主流视频生成模型提供了开箱即用的优化方案,GitHub项目页提供了详细的操作指南。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

四项核心技术实现极限加速

视频生成模型(通常为Diffusion Transformer架构)速度慢,主要受限于迭代步数多、注意力计算算力重、权重搬运显存压力大。

TurboDiffusion整合了四项关键技术,精准应对这些瓶颈:

  1. SageAttention:采用自研的SageAttention2++低比特量化注意力方案,将权重和激活值压缩至INT8/INT4,通过异常值平滑等技术保持精度。注意力计算速度提升3-5倍,显存占用减半。
  2. Sparse-Linear Attention (SLA):结合稀疏性(关注重要像素)与线性计算复杂度,减少计算量。SLA可与SageAttention叠加使用,实现额外加速。
  3. rCM步数蒸馏:引入rCM(Score-regularized Continuous-time Consistency Models)进行步数蒸馏,将原本需要数十步的生成过程压缩至1-4步,同时保持质量。
  4. W8A8量化与自定义算子:对模型线性层采用W8A8量化,并利用RTX 5090的INT8 Tensor Core进行分块计算。同时,使用Triton/CUDA重写LayerNorm等基础算子,消除性能开销。

这四项技术环环相扣:蒸馏减少步数,量化降低负载,SLA和SageAttention削减算力需求,共同实现了惊人的加速效果。

清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

这些技术由清华大学TSAIL团队与生数科技自主研发,其意义在于:
* 消费级部署成为可能:单卡实现秒级出片,为个人创作者及中小企业提供实用工具。
* 云端推理成本骤降:延迟降低百倍,同等算力可服务更多用户。
* 推动AIGC产品创新:使实时视频编辑、交互式生成等新场景成为可能。
* 适配国产芯片:低比特、稀疏化等特性有利于在国产AI芯片上部署。

其中,SageAttention是全球首个实现注意力计算量化加速的技术方案,已集成至NVIDIA TensorRT,并在华为昇腾、摩尔线程等平台完成部署。腾讯、字节、阿里、Google等国内外科技企业也已在其核心产品中应用该技术。

迈向实时视频生成时代

从小时级到秒级,TurboDiffusion不仅是一次技术突破,更是一次范式转移。它证明高质量AI视频无需以牺牲效率为代价。

当生成速度进入人类反应时间范围(<5秒),AI将从后期工具转变为创作伙伴,实现“所想即所得”。

我们离那个实时生成的时代,或许只有2秒。

项目地址
https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址
https://arxiv.org/pdf/2512.16093


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15187

(0)
上一篇 2025年12月25日 上午11:39
下一篇 2025年12月25日 下午12:08

相关推荐

  • EmotionThinker:首个面向可解释情感推理的强化学习框架,让SpeechLLM学会“解释情绪”

    语音情感识别(Speech Emotion Recognition, SER)在过去基本遵循同一种范式:输入语音,输出情绪标签。这种设定在工程上有效,但在认知层面却过于简化。 在人类交流中,情绪判断从来不是一个“标签选择”的过程,而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容,以及说话人的身份特征,去解释“为什么”…

    2026年2月25日
    14000
  • 原生并行推理革命:NPR框架让AI智能体告别单线程思维,进化出多路径探索大脑

    近年来,大语言模型在文本生成的流畅度和长度上进步显著。然而,当面对真正复杂的推理任务——需要多路径探索、自我反思与交叉验证、以及在多条线索间进行综合与抉择时,传统的链式思维(Chain-of-Thought)方法便开始显得力不从心:它容易受早期判断误导、思维发散不足、自我纠错能力弱,并且其顺序生成的特性在效率上存在天然瓶颈。 北京通用人工智能研究院(BIGA…

    2025年12月27日
    18200
  • DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

    当长上下文成为负担:我们是否真的需要「把一切都塞进推理模型」? 随着对大模型推理能力要求的提升,输入上下文的长度也在不断增长,1M tokens 及以上的上下文窗口正逐渐成为现实。然而,“读得更长”是否必然带来推理能力的提升? 在实际应用中,情况往往并不理想。当推理模型直接处理超长原始文本时,瓶颈往往不再是“不会推理”,而是源于“读不完、读不动、读不准”:*…

    4天前
    10800
  • FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶

    VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。现有的通用视觉 token 剪枝方法并非为自动驾驶场景设计,在实际应用中存在诸多局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文《FastDriveVLA》,为自动驾驶 VLA 模型中的高效视觉 token …

    2026年1月4日
    20800
  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    8500