当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。

来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic Minimax Path Caching)框架,这是一种无需训练、全局最优建模的缓存加速解决方案。该框架的核心价值在于解决了扩散模型长期存在的“局部贪心决策”问题,探索是否存在真正“全局一致、误差可控、速度极快”的缓存加速路径。研究结果表明,这样的路径不仅存在,而且实现方式比预想的更为简洁高效。这项研究已成功入选NeurIPS 2025 Spotlight,标志着其在学术界的认可度。

LeMiCa的创新之处在于其根本性的思路转变。当前主流的缓存加速方法(如TeaCache)采用“局部贪心”策略,即根据相邻时间步之间的变化程度决定是否复用缓存。这种“走一步看一步”的策略存在明显缺陷:首先,它忽视了扩散模型早期步骤对生成结果的高度敏感性,微小的误差可能在后期被不断放大,严重影响最终画质;其次,许多现有方法需要引入在线判别机制,这会带来额外的计算负担,使得生成过程依然缓慢。
LeMiCa的核心思想是将缓存加速问题重新定义为全局路径优化问题。研究团队发现,扩散模型的生成过程可以抽象为一个带权有向无环图(DAG)。在这个图中,每个节点代表一个时间步,每条边代表在两个时间步之间“跳过计算、复用缓存”的行为,边的权重则对应缓存导致的全局误差。这种建模方式使得缓存策略自然地转化为在DAG中搜索最优路径的问题。

在技术实现层面,LeMiCa提出了一种全新的误差度量方法。通过离线构建静态DAG来量化缓存对最终生成视频结果的影响。DAG的构建包含三个关键要素:1)节点:每个时间步;2)边:可能的缓存区间;3)边权重:缓存-复用引发的全局重建误差。具体而言,对于DAG中节点i到j的边权定义为:

其中,

代表了从时间步i到时间步j启用缓存复用机制时所带来的全局误差,这个全局误差可以通过加速前后输出图像之间的L1损失来量化。
为了避免图结构过于庞大,LeMiCa依据“距离越长,缓存误差越大”的先验知识,设置了最大跳跃长度,只保留合理的缓存段以减少搜索复杂度。为了保证鲁棒性和泛化性,LeMiCa仅使用少量样本(prompt和seed)离线生成多个DAG并进行融合,最终得到一个静态的、跨任务可复用的全局误差图。
在构建好静态误差图之后,LeMiCa将缓存调度问题形式化为:在固定预算B下,从起点到终点寻找一条最优路径。由于传统的“最短路径”或“局部最优”算法不具备线性可加性,LeMiCa采用了字典序极小化准则来进行路径搜索。这种优化方式不追求误差总和最小,而是逐层比较路径中各段缓存的误差值,确保最大误差被最小化(避免单段灾难性退化)且误差分布更均衡(提升全局一致性)。形式化定义如下:

其中

:表示所有从起点

到终点

且包含恰好

次完整推理的路径集合,

表示路径中对应缓存复用的边集合,

:表示边

的误差权重,

表示对误差向量按降序排列。
通过字典序比较,LeMiCa避免了“看似整体误差低但中间崩坏”的路径:若路径A的最大误差 < 路径B的最大误差 → A更优;若最大误差相同 → 比较第二大依次类推。

实验结果表明,LeMiCa在多个主流视频生成模型中均表现出色。从视觉效果上看,LeMiCa生成的视频在结构风格保持、内容一致性方面都有显著提升。

即使在高倍加速推理下,也几乎看不出明显退化。

具体而言,LeMiCa相比其他主流方法具有以下优势:极佳的生成效果,结构、纹理和内容一致性全面提升;优秀的加速性能,提供2.4×以上的高倍加速推理。
消融实验进一步验证了LeMiCa的稳健性:在少样本建图方面,LeMiCa仅凭少量样本即可构建高质量缓存路径,单样本已具备强性能,20个样本即达到性能饱和,体现了静态缓存策略的高效与稳健。

在加速路径的鲁棒性方面,即使改变采样调度中的轨迹缩放参数得到不同的去噪轨迹,LeMiCa仍有较好的效果,体现了良好的路径鲁棒性。

值得注意的是,由于LeMiCa本质上是一个用于扩散模型缓存加速的框架,因此其也适用于文生图模型。研究团队使用最新的QWen-Image模型进行了实验,得到了同样出色的加速效果:

LeMiCa的创新性和实用性得到了业界的广泛认可。阿里通义千问和智谱AI等顶级多模态模型研发团队均在官方主页上对LeMiCa进行了权威推荐,这进一步证明了该框架在视频生成加速领域的重要价值。


— 图片补充 —


关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6252
