LeMiCa：突破视频生成瓶颈的全局最优缓存加速框架

2025年11月26日上午9:15 • AI产业动态 • 阅读 85

当前，基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展，生成效果逐渐逼近真实拍摄水平。然而，这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高，这一瓶颈已成为制约视频创作体验的关键障碍。

来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa（Lexicographic Minimax Path Caching）框架，这是一种无需训练、全局最优建模的缓存加速解决方案。该框架的核心价值在于解决了扩散模型长期存在的“局部贪心决策”问题，探索是否存在真正“全局一致、误差可控、速度极快”的缓存加速路径。研究结果表明，这样的路径不仅存在，而且实现方式比预想的更为简洁高效。这项研究已成功入选NeurIPS 2025 Spotlight，标志着其在学术界的认可度。

LeMiCa的创新之处在于其根本性的思路转变。当前主流的缓存加速方法（如TeaCache）采用“局部贪心”策略，即根据相邻时间步之间的变化程度决定是否复用缓存。这种“走一步看一步”的策略存在明显缺陷：首先，它忽视了扩散模型早期步骤对生成结果的高度敏感性，微小的误差可能在后期被不断放大，严重影响最终画质；其次，许多现有方法需要引入在线判别机制，这会带来额外的计算负担，使得生成过程依然缓慢。

LeMiCa的核心思想是将缓存加速问题重新定义为全局路径优化问题。研究团队发现，扩散模型的生成过程可以抽象为一个带权有向无环图（DAG）。在这个图中，每个节点代表一个时间步，每条边代表在两个时间步之间“跳过计算、复用缓存”的行为，边的权重则对应缓存导致的全局误差。这种建模方式使得缓存策略自然地转化为在DAG中搜索最优路径的问题。

在技术实现层面，LeMiCa提出了一种全新的误差度量方法。通过离线构建静态DAG来量化缓存对最终生成视频结果的影响。DAG的构建包含三个关键要素：1）节点：每个时间步；2）边：可能的缓存区间；3）边权重：缓存-复用引发的全局重建误差。具体而言，对于DAG中节点i到j的边权定义为：

其中，

代表了从时间步i到时间步j启用缓存复用机制时所带来的全局误差，这个全局误差可以通过加速前后输出图像之间的L1损失来量化。

为了避免图结构过于庞大，LeMiCa依据“距离越长，缓存误差越大”的先验知识，设置了最大跳跃长度，只保留合理的缓存段以减少搜索复杂度。为了保证鲁棒性和泛化性，LeMiCa仅使用少量样本（prompt和seed）离线生成多个DAG并进行融合，最终得到一个静态的、跨任务可复用的全局误差图。

在构建好静态误差图之后，LeMiCa将缓存调度问题形式化为：在固定预算B下，从起点到终点寻找一条最优路径。由于传统的“最短路径”或“局部最优”算法不具备线性可加性，LeMiCa采用了字典序极小化准则来进行路径搜索。这种优化方式不追求误差总和最小，而是逐层比较路径中各段缓存的误差值，确保最大误差被最小化（避免单段灾难性退化）且误差分布更均衡（提升全局一致性）。形式化定义如下：