动态缓存+自适应解码,哈工大华为联合提出免训练dLLM加速框架,最高4.48倍提速

Dynamic-dLLM团队 投稿

量子位 | 公众号 QbitAI

文本生成领域,扩散大语言模型(dLLMs)正展现出巨大潜力。
但与此同时,它也面临严重的计算瓶颈——

为此,哈工大(深圳)与华为、深圳河套学院的研究团队提出了一套免训练加速框架 Dynamic-dLLM

不同于主流dLLM加速方案(如dLLM-Cache、Fast-dLLM等),这些方案主要依赖静态缓存或固定阈值的并行解码策略,而Dynamic-dLLM巧妙结合了动态缓存预算分配(DCU)与自适应并行解码(APD),能够实现良好的性能保持以及显著的加速比

在多个代表性扩散大语言模型和主流权威基准上,Dynamic-dLLM均达到了SOTA水平。

尤其是在LLaDA-8B-Instruct模型的GSM8k任务上,Dynamic-dLLM实现了4.48倍的吞吐量加速(从8.32 TPS提升至37.29 TPS),在几乎无损精度的前提下,实现了跨任务平均3倍以上的加速。

以下是更多详细内容。

研究背景

现有dLLMs加速框架尝试复用前一步骤的中间特征(如Query、Key、Value),假设相邻步骤的特征相似度很高。然而,这种静态加速策略面临两大困境:

1、层级缓存更新需求差异巨大:
在实际解码中,浅层特征变化平缓,深层特征变化剧烈,需要更新缓存的Token比例随层数增加而单调上升。统一的缓存更新策略造成了极大的算力浪费。

2、固定阈值并行解码阻碍了效率:
并行解码会在Token置信度超过设定阈值时将其固定(Unmask)。
但处于早期步骤时,最高置信度的Token往往不是最终输出,固定阈值会导致“过早承诺”带来错误累积;而对于那些分布极其集中的Token,又因为绝对置信度没达到阈值而白白浪费计算步骤。

如上图所示,不同层和步骤的Token特征相似度及更新需求差异显著。其中图(e)展现了使用固定阈值导致潜在正确候选被错误丢弃的现象。

这证明了动态对齐模型内在层级与步骤级动态特性的必要性。

结合DCU和APD,实现动态极致加速

DCU:动态缓存更新

针对Token特征在层级间的异质动态特性,DCU实现了自适应的缓存预算分配:

1、层级自适应预算分配:
无需重新计算高开销的Value向量,DCU直接利用归一化后的Token输入计算相邻步骤间的余弦距离,以此作为表征变化的度量。
通过汇总Token级别的变化,DCU动态计算各层的活跃度,并将总更新预算按比例倾斜给变化最剧烈的层。

2、强制更新窗口(破除陷入泥潭问题):
如果一个Token被分配到较低优先级未更新,其特征将保持静止,导致后续层测算时其变化度为0,从而引发Token跨层“卡死(Stuck in the mud)”。
为此,基于局部性原理,DCU引入了固定大小的强制更新窗口(Mandatory Update Window),确保关键Token及其周围的局部区域强制进行缓存更新,从而保障关键上下文响应局部变化。

APD:自适应并行解码

针对Token置信度随解码步波动的特点,APD引入了动态阈值校准机制,为每个Token定制独立的解掩码阈值:

1、基于置信度集中的阈值自适应:
通过计算Token预测分布最高概率与次高概率的差距(集中度),对于分布高度集中(极有可能不再改变)的Token降低其阈值使其尽早固定;对分布分散的Token提高阈值防止错判。

2、融合时序不稳定性:
结合相邻步骤间概率分布的余弦距离,量化该Token历史预测的动荡程度。如果预测极其不稳定,则施加更严格的阈值惩罚,防止过早解码。

实验结果

Dynamic-dLLM在3个主流扩散大语言模型以及5个具有挑战性的数据集上进行了全面评估。

可以看出:

  • 加速与性能保持:如表1、2、3所示,无论LLaDA-8B-Instruct还是Dream-v0-7B-Instruct,Dynamic-dLLM(及搭配并行解码的Dynamic-dLLM版本)均领先dLLM-Cache、dKV-Cache和Fast-dLLM方案。在保持甚至微升准确率的情况下,平均TPS提升均达到2.5x~3.2x。

  • 跨模型泛化性:在LLaDA-1.5上,GSM8k任务的加速比达到了4.46x(37.02 TPS vs 8.30 TPS),Dream模型的加速比同样达到3.91x,证明了该方法对于架构差异的泛化能力。

另外,消融实验也展示了关键超参数对精度与吞吐量的权衡影响,同时证明了动态阈值相比于固定阈值能在不掉点的情况下进一步减少约30%的推理步骤。

总的来讲,研究者敏锐地发现了非自回归生成的dLLM在推理时,特征更新与置信度随“层”和“步”存在剧烈的动态变化,而现有加速框架对此视而不见,导致了性能损耗与冗余计算。

而本论文的贡献可归纳为:

1、揭示现有规则加速的局限性:发现了dLLMs层级与解码步间的动态变化规律会削弱静态缓存框架的有效性。

2、提出无训练加速框架 Dynamic-dLLM:巧妙结合动态缓存更新(DCU)和自适应并行解码(APD),解决层级算力分配与动态置信度误判问题。

3、即插即用的卓越性能:在主流开源扩散模型与多维基准测试上实现了一致的SOTA性能,在保持模型精度的同时,达成平均超过3倍的推理加速,为dLLMs的低延迟实际部署扫清了障碍。

论文链接:https://openreview.net/forum?id=SdnkB5pGbq
代码链接:https://github.com/TianyiWu233/DYNAMIC-DLLM


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33640

(0)
上一篇 4天前
下一篇 4天前

相关推荐

  • 大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷

    大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷(1/4) 关键词:大语言模型、随机采样、智能体、分布偏差、伪随机幻觉 本文研究团队来自 Google DeepMind 和新加坡国立大学。他们在《The Illusion of Stochasticity in LLMs》一文中,直指大模型智能体一项被长期掩盖的致命…

    2026年4月15日
    19500
  • 微软Re-TRAC框架:让AI智能体记住失败经验,4B模型性能超越大模型

    想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是这既低效,也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验,每次都是从头开始,导致大量冗余搜索和资源浪费。 现有的深度…

    2026年2月19日
    28100
  • EmotionThinker:首个面向可解释情感推理的强化学习框架,让SpeechLLM学会“解释情绪”

    语音情感识别(Speech Emotion Recognition, SER)在过去基本遵循同一种范式:输入语音,输出情绪标签。这种设定在工程上有效,但在认知层面却过于简化。 在人类交流中,情绪判断从来不是一个“标签选择”的过程,而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容,以及说话人的身份特征,去解释“为什么”…

    2026年2月25日
    36100
  • Android异构硬件AI推理优化:NPU+INT8量化实现298倍加速的深度解析

    关键词: Android、异构计算、模型量化、ResNet、YOLO、高通骁龙 当你使用手机的“拍照识物”功能时,是否遇到过画面卡顿?当直播应用的实时美颜效果延迟明显时,你是否好奇问题出在哪里?这些场景背后,都指向移动 AI 推理的核心挑战:如何在手机有限的硬件资源下,让AI模型(如图像分类、目标检测)既跑得快(低延迟),又算得准(高精度),同时还不费电(低…

    2026年1月3日
    64600
  • HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持

    随着多模态大语言模型(MLLM)支持的上下文长度不断增长,高分辨率图像和长视频输入会产生远多于文本的视觉标记(Token)。在自注意力机制二次计算复杂度的制约下,这些海量视觉Token迅速成为模型推理效率的瓶颈。 现有研究通常采用渐进式剪枝来减少视觉Token,但大多采用固定的剪枝策略,未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。 通过对MLL…

    2026年3月23日
    33900