无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破
视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。
将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严重崩溃。为解决这一难题,来自香港科技大学、北京航空航天大学、南洋理工大学等单位的研究团队提出了 LINVIDEO。这是一个无需额外数据、也无需重新预训练的后训练框架,能够实现视频扩散模型的高比例线性化替换,同时保持生成质量。

△ 14B模型视频生成效果对比:(上)原始模型;(中)LINVIDEO(1.71倍加速);(下)结合4步蒸馏的LINVIDEO(20.9倍加速)。
该论文已被 CVPR 2024 接收。在Wan 14B模型上,LINVIDEO实现了 1.71倍的端到端加速;若结合4步蒸馏技术,加速比可达到 20.9倍,且视频质量几乎无损。

视频扩散模型为何“难线性化”?
LINVIDEO首先回答了一个关键问题:为何线性注意力在一些任务上可行,但在视频扩散模型上常常“一换就崩”?原因并不仅仅是“线性注意力近似误差更大”,更在于 替换过程本身的高度敏感性。不同层的注意力模块对最终生成质量的贡献并不均衡:某些层被替换会造成明显的质量退化,而另一些层替换则影响甚微。若采用手工规则或启发式策略来选择替换层,很容易陷入“替换越多,质量下降越严重”的困境,或者为了保持质量而不敢替换太多层,导致最终加速效果不明显。

△ 注意力层敏感性分析:不同层替换对生成质量的影响。
此外,简单地使用均方误差(MSE)进行输出对齐,会引入明显的时序抖动与画面闪烁问题。

△ 使用MSE进行对齐导致的生成效果问题(时序抖动与闪烁)。
而传统的少步数蒸馏等分布匹配方法,仅对最终输出分布进行对齐,忽略了采样过程中的中间时刻分布,导致性能显著下降。更严重的是,这类传统方法通常需要额外训练一个辅助模型来估计分数函数,训练成本极高。因此,视频模型的线性化不仅是结构替换问题,更是优化目标的设计问题。
LINVIDEO:数据无关的后训练线性化框架
LINVIDEO的整体思路可概括为:将“替换哪些层”转化为一个可学习的问题,并将“如何训练恢复”替换为更适合视频生成的对齐目标。
在“替换层选择”上,LINVIDEO摒弃了手工挑选或经验规则,而是将层选择视为一个二分类决策问题,提出了 选择性迁移 策略。该策略让模型在后训练过程中自动、渐进地将一部分注意力层迁移到线性形式,从而将性能损失降至最低。
直观理解是:并非“一刀切”式地全部替换,而是让模型自己学会判断“哪些层可以安全线性化、哪些层需要保留”,并通过逐步迁移来避免因瞬间替换导致的分布突变。
LINVIDEO还提出了任意时刻分布匹配方法:该方法并非只对齐某个固定的采样时刻,而是沿着整个采样轨迹,在任意时间步上对齐样本分布,从而更有效地将线性化后的模型行为“拉回”至原始模型。论文强调,这一目标不仅能有效恢复性能,而且更加高效(无需像传统分布匹配方法那样训练辅助模型),避免了无效且低效的优化过程。

△ LINVIDEO框架示意图。
实验结果
研究团队在 Wan 1.3B 与 Wan 14B 模型上进行了系统评测,采用VBench的8个维度进行综合评估,同时也使用VBench-2.0(包含增强提示)来衡量模型在物理规律、常识一致性等更复杂任务上的能力。
对比方法涵盖了主流的稀疏注意力与动态注意力方案,包括 SVG、SVG2、DFA 以及动态方法XAttention。延迟测试在单张 H100 GPU上完成,并确保所有对比方法均使用其最快的注意力实现以保证公平性。

△ VBench综合性能对比。

△ VBench-2.0(增强提示)性能对比。
论文的核心结论是:在同等评测标准下,LINVIDEO能够在最大程度保持生成质量的前提下,将视频扩散模型的推理速度提升至更实用的水平。整体上,LINVIDEO实现了 1.43至1.71倍 的加速,同时质量保持稳定;在进一步结合4步蒸馏后,端到端延迟降低了 15.9至20.9倍,而主观视觉质量仅有轻微下降。
这意味着LINVIDEO不仅完成了“将注意力换成线性”这一步骤,更提供了一套可落地的迁移与对齐方案,使得对视频扩散模型进行大比例线性化替换变得切实可行。


△ 1.3B模型视频生成效果对比:(上)原始模型;(中)LINVIDEO(1.43倍加速);(下)结合4步蒸馏的LINVIDEO(15.9倍加速)。


△ 14B模型视频生成效果对比:(上)原始模型;(中)LINVIDEO(1.71倍加速);(下)结合4步蒸馏的LINVIDEO(20.9倍加速)。
总结
LINVIDEO清晰地表明:视频扩散模型线性化的核心难点,不在于“是否存在线性注意力模块”,而在于“如何将模型迁移到线性架构并有效恢复其生成质量”。
该框架通过 选择性迁移 解决了“替换层选择”的敏感性问题,通过 任意时刻分布匹配 解决了“视频场景对齐目标”的有效性与效率问题。从而,在无需重新预训练的前提下,推动了视频扩散模型从O(n²)复杂度向更可扩展的O(n)推理路径迈进。
论文地址:https://arxiv.org/pdf/2510.08318

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25080
