LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic Minimax Path Caching)框架,这是一种无需训练、全局最优建模的缓存加速解决方案。该框架的核心价值在于解决了扩散模型长期存在的“局部贪心决策”问题,探索是否存在真正“全局一致、误差可控、速度极快”的缓存加速路径。研究结果表明,这样的路径不仅存在,而且实现方式比预想的更为简洁高效。这项研究已成功入选NeurIPS 2025 Spotlight,标志着其在学术界的认可度。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa的创新之处在于其根本性的思路转变。当前主流的缓存加速方法(如TeaCache)采用“局部贪心”策略,即根据相邻时间步之间的变化程度决定是否复用缓存。这种“走一步看一步”的策略存在明显缺陷:首先,它忽视了扩散模型早期步骤对生成结果的高度敏感性,微小的误差可能在后期被不断放大,严重影响最终画质;其次,许多现有方法需要引入在线判别机制,这会带来额外的计算负担,使得生成过程依然缓慢。

LeMiCa的核心思想是将缓存加速问题重新定义为全局路径优化问题。研究团队发现,扩散模型的生成过程可以抽象为一个带权有向无环图(DAG)。在这个图中,每个节点代表一个时间步,每条边代表在两个时间步之间“跳过计算、复用缓存”的行为,边的权重则对应缓存导致的全局误差。这种建模方式使得缓存策略自然地转化为在DAG中搜索最优路径的问题。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

在技术实现层面,LeMiCa提出了一种全新的误差度量方法。通过离线构建静态DAG来量化缓存对最终生成视频结果的影响。DAG的构建包含三个关键要素:1)节点:每个时间步;2)边:可能的缓存区间;3)边权重:缓存-复用引发的全局重建误差。具体而言,对于DAG中节点i到j的边权定义为:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

其中,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

代表了从时间步i到时间步j启用缓存复用机制时所带来的全局误差,这个全局误差可以通过加速前后输出图像之间的L1损失来量化。

为了避免图结构过于庞大,LeMiCa依据“距离越长,缓存误差越大”的先验知识,设置了最大跳跃长度,只保留合理的缓存段以减少搜索复杂度。为了保证鲁棒性和泛化性,LeMiCa仅使用少量样本(prompt和seed)离线生成多个DAG并进行融合,最终得到一个静态的、跨任务可复用的全局误差图。

在构建好静态误差图之后,LeMiCa将缓存调度问题形式化为:在固定预算B下,从起点到终点寻找一条最优路径。由于传统的“最短路径”或“局部最优”算法不具备线性可加性,LeMiCa采用了字典序极小化准则来进行路径搜索。这种优化方式不追求误差总和最小,而是逐层比较路径中各段缓存的误差值,确保最大误差被最小化(避免单段灾难性退化)且误差分布更均衡(提升全局一致性)。形式化定义如下:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

其中

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

:表示所有从起点

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

到终点

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

且包含恰好

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

次完整推理的路径集合,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

表示路径中对应缓存复用的边集合,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

:表示边

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

的误差权重,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

表示对误差向量按降序排列。

通过字典序比较,LeMiCa避免了“看似整体误差低但中间崩坏”的路径:若路径A的最大误差 < 路径B的最大误差 → A更优;若最大误差相同 → 比较第二大依次类推。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

实验结果表明,LeMiCa在多个主流视频生成模型中均表现出色。从视觉效果上看,LeMiCa生成的视频在结构风格保持、内容一致性方面都有显著提升。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

即使在高倍加速推理下,也几乎看不出明显退化。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

具体而言,LeMiCa相比其他主流方法具有以下优势:极佳的生成效果,结构、纹理和内容一致性全面提升;优秀的加速性能,提供2.4×以上的高倍加速推理。

消融实验进一步验证了LeMiCa的稳健性:在少样本建图方面,LeMiCa仅凭少量样本即可构建高质量缓存路径,单样本已具备强性能,20个样本即达到性能饱和,体现了静态缓存策略的高效与稳健。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

在加速路径的鲁棒性方面,即使改变采样调度中的轨迹缩放参数得到不同的去噪轨迹,LeMiCa仍有较好的效果,体现了良好的路径鲁棒性。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

值得注意的是,由于LeMiCa本质上是一个用于扩散模型缓存加速的框架,因此其也适用于文生图模型。研究团队使用最新的QWen-Image模型进行了实验,得到了同样出色的加速效果:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa的创新性和实用性得到了业界的广泛认可。阿里通义千问和智谱AI等顶级多模态模型研发团队均在官方主页上对LeMiCa进行了权威推荐,这进一步证明了该框架在视频生成加速领域的重要价值。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

— 图片补充 —

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6252

(0)
上一篇 2025年11月26日 上午9:15
下一篇 2025年11月26日 上午9:17

相关推荐

  • 学术匿名性危机:ICLR审稿人身份泄露事件的技术漏洞、社区冲击与系统反思

    近日,国际人工智能顶会ICLR 2026的审稿流程遭遇了前所未有的安全漏洞,导致审稿人身份信息大规模泄露。这一事件不仅暴露了学术评审系统的技术脆弱性,更引发了关于匿名评审制度、学术诚信与社区信任的深层讨论。 事件的核心在于OpenReview平台的一个技术漏洞被自动化爬虫攻击利用。攻击者通过构造特定URL,输入论文ID和审稿人编号即可获取对应审稿人的真实身份…

    2025年12月1日
    500
  • 硅谷容貌革命:科技从业者医美潮背后的年龄焦虑与行业变革

    在科技创新的前沿阵地硅谷,一场静默的容貌革命正在悄然兴起。加州整形外科医生的最新数据显示,过去五年间,来自科技行业的男性求美者数量激增五倍,其中大厂中年程序员成为主力军。这一现象不仅揭示了科技从业者日益加剧的年龄焦虑,更折射出全球科技行业在AI时代下面临的结构性挑战。 深入分析这一趋势,首先需要关注医美项目的具体变化。根据硅谷整形外科医生本·塔莱博士的观察,…

    2025年11月7日
    100
  • DeepPHY基准揭示多模态大模型物理推理能力鸿沟:从静态理解到动态交互的挑战

    近日,淘天集团算法技术-未来生活实验室团队提出的DeepPHY基准框架,作为首个系统性评估多模态大模型(VLM)交互式物理推理能力的综合基准,被AAAI 2026收录。该研究通过六个极具挑战性的物理模拟环境,揭示了即便是顶尖VLM,在将物理知识转化为精确、可预测的交互控制时,仍存在显著的核心短板。这一发现不仅对VLM在动态环境中的应用提出了严峻挑战,也为未来…

    2025年11月16日
    300
  • 悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

    在人工智能技术快速演进的今天,多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时,北京智源人工智能研究院(BAAI)最新发布的悟界・Emu3.5模型,以其创新的“多模态世界大模型”定位,为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代,它被定义为“多模态世界大模型”(M…

    2025年10月30日
    200
  • DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

    近日,来自中国人民大学与清华大学的研究团队联合发布了DeepAnalyze,这是全球首个面向自主数据科学的agentic LLM(大型语言模型)。该模型的发布在学术界和工业界引发了广泛关注,一周内即在GitHub上获得超过1000个星标,社交媒体浏览量突破20万次,标志着数据科学领域向智能化、自主化迈出了关键一步。 DeepAnalyze-8B的核心突破在于…

    2025年10月30日
    200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注