无需数据重训，视频扩散模型线性化提速20倍：CVPR 2024新突破

视频生成已进入大规模时代，但随之而来的计算成本急剧攀升。生成一段10秒的视频，其token数量可超过5万，而模型核心的自注意力机制复杂度为O(n²)，导致推理过程极其缓慢，难以实用。

将自注意力替换为复杂度为O(n)的线性注意力，是理想的解决方案，但现实情况是：直接替换会导致模型生成质量严重崩溃。为解决这一难题，来自香港科技大学、北京航空航天大学、南洋理工大学等单位的研究团队提出了 LINVIDEO。这是一个无需额外数据、也无需重新预训练的后训练框架，能够实现视频扩散模型的高比例线性化替换，同时保持生成质量。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

△ 14B模型视频生成效果对比：（上）原始模型；（中）LINVIDEO（1.71倍加速）；（下）结合4步蒸馏的LINVIDEO（20.9倍加速）。

该论文已被 CVPR 2024 接收。在Wan 14B模型上，LINVIDEO实现了 1.71倍的端到端加速；若结合4步蒸馏技术，加速比可达到 20.9倍，且视频质量几乎无损。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

视频扩散模型为何“难线性化”？

LINVIDEO首先回答了一个关键问题：为何线性注意力在一些任务上可行，但在视频扩散模型上常常“一换就崩”？原因并不仅仅是“线性注意力近似误差更大”，更在于 替换过程本身的高度敏感性。不同层的注意力模块对最终生成质量的贡献并不均衡：某些层被替换会造成明显的质量退化，而另一些层替换则影响甚微。若采用手工规则或启发式策略来选择替换层，很容易陷入“替换越多，质量下降越严重”的困境，或者为了保持质量而不敢替换太多层，导致最终加速效果不明显。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

△ 注意力层敏感性分析：不同层替换对生成质量的影响。

此外，简单地使用均方误差（MSE）进行输出对齐，会引入明显的时序抖动与画面闪烁问题。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

△ 使用MSE进行对齐导致的生成效果问题（时序抖动与闪烁）。

而传统的少步数蒸馏等分布匹配方法，仅对最终输出分布进行对齐，忽略了采样过程中的中间时刻分布，导致性能显著下降。更严重的是，这类传统方法通常需要额外训练一个辅助模型来估计分数函数，训练成本极高。因此，视频模型的线性化不仅是结构替换问题，更是优化目标的设计问题。

LINVIDEO：数据无关的后训练线性化框架

LINVIDEO的整体思路可概括为：将“替换哪些层”转化为一个可学习的问题，并将“如何训练恢复”替换为更适合视频生成的对齐目标。

在“替换层选择”上，LINVIDEO摒弃了手工挑选或经验规则，而是将层选择视为一个二分类决策问题，提出了 选择性迁移 策略。该策略让模型在后训练过程中自动、渐进地将一部分注意力层迁移到线性形式，从而将性能损失降至最低。

直观理解是：并非“一刀切”式地全部替换，而是让模型自己学会判断“哪些层可以安全线性化、哪些层需要保留”，并通过逐步迁移来避免因瞬间替换导致的分布突变。

LINVIDEO还提出了任意时刻分布匹配方法：该方法并非只对齐某个固定的采样时刻，而是沿着整个采样轨迹，在任意时间步上对齐样本分布，从而更有效地将线性化后的模型行为“拉回”至原始模型。论文强调，这一目标不仅能有效恢复性能，而且更加高效（无需像传统分布匹配方法那样训练辅助模型），避免了无效且低效的优化过程。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

△ LINVIDEO框架示意图。

实验结果

研究团队在 Wan 1.3B 与 Wan 14B 模型上进行了系统评测，采用VBench的8个维度进行综合评估，同时也使用VBench-2.0（包含增强提示）来衡量模型在物理规律、常识一致性等更复杂任务上的能力。

对比方法涵盖了主流的稀疏注意力与动态注意力方案，包括 SVG、SVG2、DFA 以及动态方法XAttention。延迟测试在单张 H100 GPU上完成，并确保所有对比方法均使用其最快的注意力实现以保证公平性。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

△ VBench综合性能对比。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

△ VBench-2.0（增强提示）性能对比。

论文的核心结论是：在同等评测标准下，LINVIDEO能够在最大程度保持生成质量的前提下，将视频扩散模型的推理速度提升至更实用的水平。整体上，LINVIDEO实现了 1.43至1.71倍 的加速，同时质量保持稳定；在进一步结合4步蒸馏后，端到端延迟降低了 15.9至20.9倍，而主观视觉质量仅有轻微下降。

这意味着LINVIDEO不仅完成了“将注意力换成线性”这一步骤，更提供了一套可落地的迁移与对齐方案，使得对视频扩散模型进行大比例线性化替换变得切实可行。

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破