LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic Minimax Path Caching)框架,这是一种无需训练、全局最优建模的缓存加速解决方案。该框架的核心价值在于解决了扩散模型长期存在的“局部贪心决策”问题,探索是否存在真正“全局一致、误差可控、速度极快”的缓存加速路径。研究结果表明,这样的路径不仅存在,而且实现方式比预想的更为简洁高效。这项研究已成功入选NeurIPS 2025 Spotlight,标志着其在学术界的认可度。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa的创新之处在于其根本性的思路转变。当前主流的缓存加速方法(如TeaCache)采用“局部贪心”策略,即根据相邻时间步之间的变化程度决定是否复用缓存。这种“走一步看一步”的策略存在明显缺陷:首先,它忽视了扩散模型早期步骤对生成结果的高度敏感性,微小的误差可能在后期被不断放大,严重影响最终画质;其次,许多现有方法需要引入在线判别机制,这会带来额外的计算负担,使得生成过程依然缓慢。

LeMiCa的核心思想是将缓存加速问题重新定义为全局路径优化问题。研究团队发现,扩散模型的生成过程可以抽象为一个带权有向无环图(DAG)。在这个图中,每个节点代表一个时间步,每条边代表在两个时间步之间“跳过计算、复用缓存”的行为,边的权重则对应缓存导致的全局误差。这种建模方式使得缓存策略自然地转化为在DAG中搜索最优路径的问题。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

在技术实现层面,LeMiCa提出了一种全新的误差度量方法。通过离线构建静态DAG来量化缓存对最终生成视频结果的影响。DAG的构建包含三个关键要素:1)节点:每个时间步;2)边:可能的缓存区间;3)边权重:缓存-复用引发的全局重建误差。具体而言,对于DAG中节点i到j的边权定义为:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

其中,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

代表了从时间步i到时间步j启用缓存复用机制时所带来的全局误差,这个全局误差可以通过加速前后输出图像之间的L1损失来量化。

为了避免图结构过于庞大,LeMiCa依据“距离越长,缓存误差越大”的先验知识,设置了最大跳跃长度,只保留合理的缓存段以减少搜索复杂度。为了保证鲁棒性和泛化性,LeMiCa仅使用少量样本(prompt和seed)离线生成多个DAG并进行融合,最终得到一个静态的、跨任务可复用的全局误差图。

在构建好静态误差图之后,LeMiCa将缓存调度问题形式化为:在固定预算B下,从起点到终点寻找一条最优路径。由于传统的“最短路径”或“局部最优”算法不具备线性可加性,LeMiCa采用了字典序极小化准则来进行路径搜索。这种优化方式不追求误差总和最小,而是逐层比较路径中各段缓存的误差值,确保最大误差被最小化(避免单段灾难性退化)且误差分布更均衡(提升全局一致性)。形式化定义如下:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

其中

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

:表示所有从起点

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

到终点

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

且包含恰好

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

次完整推理的路径集合,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

表示路径中对应缓存复用的边集合,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

:表示边

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

的误差权重,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

表示对误差向量按降序排列。

通过字典序比较,LeMiCa避免了“看似整体误差低但中间崩坏”的路径:若路径A的最大误差 < 路径B的最大误差 → A更优;若最大误差相同 → 比较第二大依次类推。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

实验结果表明,LeMiCa在多个主流视频生成模型中均表现出色。从视觉效果上看,LeMiCa生成的视频在结构风格保持、内容一致性方面都有显著提升。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

即使在高倍加速推理下,也几乎看不出明显退化。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

具体而言,LeMiCa相比其他主流方法具有以下优势:极佳的生成效果,结构、纹理和内容一致性全面提升;优秀的加速性能,提供2.4×以上的高倍加速推理。

消融实验进一步验证了LeMiCa的稳健性:在少样本建图方面,LeMiCa仅凭少量样本即可构建高质量缓存路径,单样本已具备强性能,20个样本即达到性能饱和,体现了静态缓存策略的高效与稳健。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

在加速路径的鲁棒性方面,即使改变采样调度中的轨迹缩放参数得到不同的去噪轨迹,LeMiCa仍有较好的效果,体现了良好的路径鲁棒性。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

值得注意的是,由于LeMiCa本质上是一个用于扩散模型缓存加速的框架,因此其也适用于文生图模型。研究团队使用最新的QWen-Image模型进行了实验,得到了同样出色的加速效果:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa的创新性和实用性得到了业界的广泛认可。阿里通义千问和智谱AI等顶级多模态模型研发团队均在官方主页上对LeMiCa进行了权威推荐,这进一步证明了该框架在视频生成加速领域的重要价值。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

— 图片补充 —

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/6252

(0)
上一篇 2025年11月26日 上午9:15
下一篇 2025年11月26日 上午9:17

相关推荐

  • 具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

    近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…

    2025年10月16日
    54300
  • AI教父Hinton与弟子Ilya的Scaling Law之争:数据瓶颈能否被AI自我进化突破?

    我并不认为Scaling Law已经完全结束了 。 正当学生Ilya为Scaling Law“泼下冷水”时,他的老师、AI教父Geoffrey Hinton却发表了上述截然相反的观点。 这一师徒观点的对立,不禁让人回想起两件往事。 一是Ilya几乎从学生时代起就坚信Scaling Law,不仅积极向身边人推介,还将这套理念带入了OpenAI,堪称Scalin…

    2026年1月1日
    39400
  • 全球AI编程新纪元:中国开源大模型如何重塑西方科技产品格局

    近期,Cursor和Cognition两家美国科技公司相继发布新一代AI编程模型Composer和SWE-1.5,引发业界广泛关注。然而,这些模型在推理过程中频繁使用中文的现象,以及其技术特征与中国开源模型的惊人相似性,揭示了全球AI产业格局正在发生的深刻变革。 Cursor发布的Composer模型作为其首个自研代码模型,采用强化学习训练的大型MoE架构,…

    2025年11月1日
    36100
  • 快手CroPS:跨视角正样本引擎打破搜索信息茧房,AAAI 2026 Oral成果引领向量检索新范式

    短视频搜索是向量检索在工业界最核心的应用场景之一。然而,当前业界普遍采用的「自强化」训练范式过度依赖历史点击数据,导致系统陷入信息茧房,难以召回潜在相关的新鲜内容。 针对这一问题,快手搜索团队提出了一套全新的检索数据引擎 CroPS(Cross-Perspective Positive Samples)。该方法通过引入用户换 Query 数据、推荐流数据以及…

    2026年1月12日
    33000
  • React2Shell漏洞遭810万次攻击:云基础设施成黑客掩护,动态防御成关键

    React2Shell 漏洞(CVE-2025-55182)持续遭受利用攻击,自首次泄露以来,威胁行为者已发起超过 810 万次攻击。根据 GreyNoise Observation Grid 数据,自 12 月底达到 43 万次以上的峰值以来,日攻击量已稳定在 30 万至 40 万次会话之间,表明存在持续且协调的利用活动。 该活动的基础设施布局展现出一种复…

    AI产业动态 2026年1月14日
    35000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注