LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic Minimax Path Caching)框架,这是一种无需训练、全局最优建模的缓存加速解决方案。该框架的核心价值在于解决了扩散模型长期存在的“局部贪心决策”问题,探索是否存在真正“全局一致、误差可控、速度极快”的缓存加速路径。研究结果表明,这样的路径不仅存在,而且实现方式比预想的更为简洁高效。这项研究已成功入选NeurIPS 2025 Spotlight,标志着其在学术界的认可度。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa的创新之处在于其根本性的思路转变。当前主流的缓存加速方法(如TeaCache)采用“局部贪心”策略,即根据相邻时间步之间的变化程度决定是否复用缓存。这种“走一步看一步”的策略存在明显缺陷:首先,它忽视了扩散模型早期步骤对生成结果的高度敏感性,微小的误差可能在后期被不断放大,严重影响最终画质;其次,许多现有方法需要引入在线判别机制,这会带来额外的计算负担,使得生成过程依然缓慢。

LeMiCa的核心思想是将缓存加速问题重新定义为全局路径优化问题。研究团队发现,扩散模型的生成过程可以抽象为一个带权有向无环图(DAG)。在这个图中,每个节点代表一个时间步,每条边代表在两个时间步之间“跳过计算、复用缓存”的行为,边的权重则对应缓存导致的全局误差。这种建模方式使得缓存策略自然地转化为在DAG中搜索最优路径的问题。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

在技术实现层面,LeMiCa提出了一种全新的误差度量方法。通过离线构建静态DAG来量化缓存对最终生成视频结果的影响。DAG的构建包含三个关键要素:1)节点:每个时间步;2)边:可能的缓存区间;3)边权重:缓存-复用引发的全局重建误差。具体而言,对于DAG中节点i到j的边权定义为:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

其中,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

代表了从时间步i到时间步j启用缓存复用机制时所带来的全局误差,这个全局误差可以通过加速前后输出图像之间的L1损失来量化。

为了避免图结构过于庞大,LeMiCa依据“距离越长,缓存误差越大”的先验知识,设置了最大跳跃长度,只保留合理的缓存段以减少搜索复杂度。为了保证鲁棒性和泛化性,LeMiCa仅使用少量样本(prompt和seed)离线生成多个DAG并进行融合,最终得到一个静态的、跨任务可复用的全局误差图。

在构建好静态误差图之后,LeMiCa将缓存调度问题形式化为:在固定预算B下,从起点到终点寻找一条最优路径。由于传统的“最短路径”或“局部最优”算法不具备线性可加性,LeMiCa采用了字典序极小化准则来进行路径搜索。这种优化方式不追求误差总和最小,而是逐层比较路径中各段缓存的误差值,确保最大误差被最小化(避免单段灾难性退化)且误差分布更均衡(提升全局一致性)。形式化定义如下:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

其中

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

:表示所有从起点

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

到终点

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

且包含恰好

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

次完整推理的路径集合,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

表示路径中对应缓存复用的边集合,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

:表示边

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

的误差权重,

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

表示对误差向量按降序排列。

通过字典序比较,LeMiCa避免了“看似整体误差低但中间崩坏”的路径:若路径A的最大误差 < 路径B的最大误差 → A更优;若最大误差相同 → 比较第二大依次类推。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

实验结果表明,LeMiCa在多个主流视频生成模型中均表现出色。从视觉效果上看,LeMiCa生成的视频在结构风格保持、内容一致性方面都有显著提升。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

即使在高倍加速推理下,也几乎看不出明显退化。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

具体而言,LeMiCa相比其他主流方法具有以下优势:极佳的生成效果,结构、纹理和内容一致性全面提升;优秀的加速性能,提供2.4×以上的高倍加速推理。

消融实验进一步验证了LeMiCa的稳健性:在少样本建图方面,LeMiCa仅凭少量样本即可构建高质量缓存路径,单样本已具备强性能,20个样本即达到性能饱和,体现了静态缓存策略的高效与稳健。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

在加速路径的鲁棒性方面,即使改变采样调度中的轨迹缩放参数得到不同的去噪轨迹,LeMiCa仍有较好的效果,体现了良好的路径鲁棒性。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

值得注意的是,由于LeMiCa本质上是一个用于扩散模型缓存加速的框架,因此其也适用于文生图模型。研究团队使用最新的QWen-Image模型进行了实验,得到了同样出色的加速效果:

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa的创新性和实用性得到了业界的广泛认可。阿里通义千问和智谱AI等顶级多模态模型研发团队均在官方主页上对LeMiCa进行了权威推荐,这进一步证明了该框架在视频生成加速领域的重要价值。

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

— 图片补充 —

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/6252

(0)
上一篇 2025年11月26日 上午9:15
下一篇 2025年11月26日 上午9:17

相关推荐

  • 从‘Slop’当选年度词汇看AI内容生态的挑战与演进

    近日,韦氏词典宣布将‘slop’评选为2025年度词汇,并将其新定义为‘通常由人工智能大批量生成的低质量数字内容’。这一词汇的流行,不仅反映了公众对AI生成内容泛滥的直观感受,更揭示了当前数字内容生态面临的深刻变革。 从词源学角度看,‘slop’一词的演变颇具象征意义。18世纪时它指‘软泥’,19世纪转为‘食物残渣’(如猪食),后泛指‘垃圾’或‘无价值之物’…

    2025年12月16日
    8300
  • 美学驱动AI创作革命:Elser.AI如何重塑短剧产业生态

    在人工智能技术席卷内容创作领域的当下,一个由哲学美学背景团队打造的AI工具——Elser.AI,正悄然改写短剧与漫剧的生产规则。这款工具不仅降低了影视创作的技术门槛,更通过独特的审美架构,实现了从文本到影像的智能化转换,为创作者提供了前所未有的自由度和控制权。 Elser.AI的核心创新在于其将美学系统与AI生成技术深度融合的设计理念。与传统的AI视频生成工…

    2025年11月24日
    7800
  • 华为诺亚方舟实验室突破Transformer推理瓶颈:高阶注意力机制Nexus的架构革命

    在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多…

    2025年12月5日
    10400
  • 强化学习赋能文本到3D生成:从算法突破到能力边界探索

    在人工智能生成内容领域,文本到3D生成技术正成为继大语言模型和文生图之后的下一个前沿阵地。这一技术旨在将自然语言描述转化为具有复杂几何结构、纹理细节和物理合理性的三维模型,其应用潜力覆盖数字孪生、游戏开发、工业设计、虚拟现实等多个关键领域。然而,与相对成熟的文本到2D图像生成相比,文本到3D生成面临着更为严峻的技术挑战:三维数据本身具有更高的维度复杂性、更强…

    2025年12月19日
    10200
  • 11.77亿资本押注卡车新势力「一哥」,L2升维路线率先在商用车跑通!

    贾浩楠 发自 凹非寺 量子位 | 公众号 QbitAI 在技术门槛高、商业化挑战大的硬核赛道,总有玩家能够逆周期成长—— 2026年初,自动驾驶赛道迎来首笔重磅投资:卡车新势力DeepWay深向宣布完成总额11.77亿元的Pre-IPO轮融资。 DeepWay深向成立仅5年,却持续获得VC与产业资本青睐,Pre-IPO轮次历经多轮扩充,现已进入冲刺港交所的阶…

    6天前
    8100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注