
大语言模型(LLM)中的结构化稀疏性现象,尤其是模型深度与稀疏性增强的正相关性,以及“检索头”和“检索层”的涌现机制,长期以来缺乏统一的理论解释。这些现象不仅关乎模型效率,更触及LLM内部信息处理的核心逻辑。我们荣幸地宣布,论文《UNComp: Can Matrix Entropy Uncover Sparsity? — A Compressor Design from an Uncertainty-Aware Perspective》已被EMNLP 2025主会接收。该研究不仅提出了一个高效的推理框架,更重要的是,它提供了一个全新的理论视角来系统阐释LLM内部的信息动态,为模型压缩与优化奠定了坚实的理论基础。

传统分析中,矩阵熵(Matrix Entropy)常被用于量化信息复杂度,但存在一个显著悖论:随着网络层数加深,矩阵熵通常呈现逐层增加的趋势。这似乎与观察到的“模型越深越稀疏”现象相矛盾——如果信息在不断累积,稀疏性从何而来?这一矛盾揭示了传统熵度量在捕捉深层网络信息压缩特性时的局限性。我们的研究通过引入截断矩阵熵(Truncated Matrix Entropy)解决了这一悖论。该方法聚焦于Token矩阵协方差奇异值分布中的“拐点”,仅保留最重要的主成分进行分析。惊人的发现是:截断矩阵熵随着层数加深,呈现出明显的逐层递减趋势。这一结果完美解释了深层网络的稀疏化现象——熵的减少意味着信息在深层网络中变得更加集中和结构化,而非简单累积,从而为高效的压缩创造了物理空间。


这一理论工具使我们能够“透视”模型的内部运作机制。首先,在识别关键结构方面,中间层信息熵的异常波动点精准对应了负责信息聚合的检索层(Retrieval Layers)和负责长程记忆的检索头(Retrieval Heads)。这意味着我们不再依赖经验或启发式方法进行盲目压缩,而是可以基于理论指导实现结构化剪枝,有针对性地保留模型的核心功能组件。其次,在探索最优压缩策略时,我们发现性能与准确率的权衡关键并非单纯寻找最优的累计注意力分布,而是依赖于对“信息流模式”的模仿。通过皮尔逊相关系数分析,我们证明当压缩后的KV Cache逐层熵变趋势与原始全尺寸Cache的趋势高度相似时,模型性能达到最佳。这表明成功的压缩策略本质上保留了模型原有的信息压缩与传递模式,而非破坏其内在动力学。


在Group Query Attention结构中,我们进一步观察到明显的头共享稀疏模式,这为头级压缩提供了天然的结构依据。基于上述理论洞察,我们设计了UNCOMP框架,并首次通过直接压缩Prefill阶段的隐藏状态来间接优化KV Cache,实现了计算与内存的联合优化。具体而言,层级压缩(Layer-wise)在Prefill阶段针对隐藏状态进行,显著加速计算过程;而头级压缩(Head-wise)则在Decoding阶段针对流式头的KV Cache实施,同时保留关键的检索头,以最大化内存节省。这种方法突破了传统压缩仅关注KV Cache的局限,从信息源头上提升效率。

实验结果表明,UNCOMP框架在多项指标上取得突破性进展:Prefill阶段加速达到60%,吞吐量提升6.4倍,并将KV Cache压缩至原始大小的4.74%。即使在极端压缩率下,模型性能仍得到有效保证。更值得注意的是,通过合并检索层与最终层,模型在特定任务上的表现几乎无损,甚至在部分场景下超越了全尺寸基线。这些成果验证了理论指导实践的有效性,也彰显了UNCOMP在平衡效率与性能方面的优越性。



UNCOMP不仅是一个高效的压缩工具,更是一扇理解LLM内部复杂信息压缩行为的窗口。它从矩阵熵的理论重构出发,揭示了深层稀疏性的本质,并以此指导了从隐藏状态到KV Cache的全链路优化。这一研究为未来大模型的高效部署与推理提供了新的范式,有望在AI产业中推动更节能、更快速的模型应用。我们期待这一工作能激发更多关于LLM内部机制与压缩技术的深入探讨。

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7520
