COMI框架：通过边际信息增益实现高压缩率下的长文本智能压缩

2026年2月25日下午6:42 • 大模型推理 • 阅读 205

为什么现有上下文压缩方法在高压缩率下集体“翻车”？

当模型需要将32K的长文本压缩到1K时，性能为何会断崖式下跌？现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容，陷入“信息内卷”：看似保留了相关片段，实则堆砌了语义雷同的冗余token，反而会误导模型生成错误答案。

来自阿里巴巴未来生活实验室的研究团队发现，这背后是压缩目标的根本错位：现有方法只关注“相关性”，却忽略了“多样性”。 当多个高度相似的token同时被保留时，它们非但不能叠加信息量，反而会相互干扰（相关不等于正确），让模型在冗余信息中迷失方向。

为破解这一困局，研究团队提出一个核心观点：高质量的压缩，需要同时优化“与查询的相关性”和“信息单元间的多样性”。 基于此，他们提出了创新框架COMI（COarse-to-fine context compression via Marginal Information Gain）。该框架通过“边际信息增益”指标与粗到细的压缩策略，在高达32倍的压缩率下，仍能精准保留多样化的关键证据链。相关论文已被ICLR 2026接收。

压缩的“智能标尺”：边际信息增益（MIG）

研究团队指出，现有压缩方法存在盲区：过度依赖相关性导致冗余堆积，而忽略了token间语义相似性引发的“信息内卷”。为此，他们引入了边际信息增益（MIG） 指标，将压缩决策从“单维度相关性”升级为“相关性-冗余性”的双维度权衡：

MIG = 本单元与查询的相关性 – 与其他单元的最大相似度

这一指标如同为每个token配备了“信息价值计分卡”：既奖励与问题高度相关的片段，又惩罚与已选内容高度重复的片段。

粗到细自适应压缩，让每比特都“物有所值”

有了智能标尺，如何实现精准压缩？COMI采用两阶段策略，如同经验丰富的编辑“先谋篇布局，再精雕细琢”：

第一阶段：粗粒度组重分配——动态调配“压缩预算”

将长文本划分为等长片段后，COMI不再“一刀切”地均匀压缩，而是基于组间的MIG值动态调整各片段的压缩率：信息密度高、冗余度低的片段（如包含关键证据的段落）获得更宽松的压缩预算；而信息稀疏或高度重复的区域则被大幅压缩。这种自适应分配确保了有限的压缩预算能精准投向“高价值信息区”。

第二阶段：细粒度token融合——加权融合避免“信息稀释”

在每个片段内部，COMI根据token级的MIG值进行加权融合：高MIG的token（相关且独特）在融合中占据主导权重，低MIG的token（冗余重复）则被自然稀释。这一机制有效避免了传统平均池化导致的“关键细节被平滑掉”的问题，使压缩后的表示既紧凑又富含多样化的信息。

整个框架在NaturalQuestions、HotpotQA等5个数据集上仅需单次训练，即可应用于问答、摘要等多种长上下文任务。

实践出真知：高压缩率下的优越性能与深刻洞察

下游任务表现卓越

在32倍压缩约束下，以Qwen2-7B为基座模型的COMI，在NaturalQuestions数据集上实现了49.15的Exact Match（EM）分数，比次优基线高出近25个点。即使面对32K的超长文本（NarrativeQA），COMI仍能稳定保留推理链中的关键节点，证明了其在极端压缩场景下的鲁棒性。

压缩不是“删减”，而是“提纯”

COMI甚至能提升原生支持256K上下文的Qwen3-4B模型的性能。 在NaturalQuestions上，经过32倍压缩后的COMI达到了28.89的F1分数，远超直接输入完整上下文所得的16.90。这证明高质量的压缩不仅是“减负”，更是通过消除冗余干扰实现“信息提纯”，让模型更聚焦于核心证据。

效率与效果兼得

在32倍压缩下，COMI实现了端到端推理速度2倍以上的提升，且压缩阶段仅引入轻量级开销（在NarrativeQA任务中，压缩耗时2.76秒，生成仅需0.50秒），为工业级部署铺平了道路。

总结

COMI为长上下文的高效推理提供了新范式：

它通过边际信息增益这一简洁而深刻的指标，将压缩目标从“保留相关片段”升级为“保留相关且多样化的信息”，从根本上破解了高压缩率下的性能瓶颈。粗到细的自适应策略则确保了压缩过程既符合全局信息分布，又能保留局部语义细节。

这项研究证明，真正的高质量压缩不是简单的“删减”——而是要让每一比特都承载多样化的信息价值，为大模型走向轻量化、实用化迈出了关键一步。

论文标题：COMI: Coarse-to-fine Context Compression via Marginal Information Gain
论文链接：https://arxiv.org/abs/2602.01719
代码链接：https://github.com/Twilightaaa/COMI

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/22267

COMI框架：通过边际信息增益实现高压缩率下的长文本智能压缩

为什么现有上下文压缩方法在高压缩率下集体“翻车”？

压缩的“智能标尺”：边际信息增益（MIG）

粗到细自适应压缩，让每比特都“物有所值”

实践出真知：高压缩率下的优越性能与深刻洞察

下游任务表现卓越

压缩不是“删减”，而是“提纯”

效率与效果兼得

总结

相关推荐

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍

FAST-Prefill：FPGA动态稀疏注意力加速器，突破长上下文LLM预填充瓶颈，性能提升2.5倍

美团LongCat技术突破：LoZA稀疏注意力机制实现10倍解码加速，轻松驾驭百万级长文本

英伟达200亿美元豪购Groq：黄仁勋的AI推理野心与LPU芯片的颠覆性革命

Parallel-Probe：大模型并行推理效率革命，计算浪费减少35.8%