COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

为什么现有上下文压缩方法在高压缩率下集体“翻车”?

当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。

COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关注“相关性”,却忽略了“多样性”。 当多个高度相似的token同时被保留时,它们非但不能叠加信息量,反而会相互干扰(相关不等于正确),让模型在冗余信息中迷失方向。

为破解这一困局,研究团队提出一个核心观点:高质量的压缩,需要同时优化“与查询的相关性”和“信息单元间的多样性”。 基于此,他们提出了创新框架COMI(COarse-to-fine context compression via Marginal Information Gain)。该框架通过“边际信息增益”指标与粗到细的压缩策略,在高达32倍的压缩率下,仍能精准保留多样化的关键证据链。相关论文已被ICLR 2026接收。

压缩的“智能标尺”:边际信息增益(MIG)

研究团队指出,现有压缩方法存在盲区:过度依赖相关性导致冗余堆积,而忽略了token间语义相似性引发的“信息内卷”。为此,他们引入了边际信息增益(MIG) 指标,将压缩决策从“单维度相关性”升级为“相关性-冗余性”的双维度权衡:

MIG = 本单元与查询的相关性 – 与其他单元的最大相似度

这一指标如同为每个token配备了“信息价值计分卡”:既奖励与问题高度相关的片段,又惩罚与已选内容高度重复的片段。

粗到细自适应压缩,让每比特都“物有所值”

COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

有了智能标尺,如何实现精准压缩?COMI采用两阶段策略,如同经验丰富的编辑“先谋篇布局,再精雕细琢”

第一阶段:粗粒度组重分配——动态调配“压缩预算”

将长文本划分为等长片段后,COMI不再“一刀切”地均匀压缩,而是基于组间的MIG值动态调整各片段的压缩率:信息密度高、冗余度低的片段(如包含关键证据的段落)获得更宽松的压缩预算;而信息稀疏或高度重复的区域则被大幅压缩。这种自适应分配确保了有限的压缩预算能精准投向“高价值信息区”

第二阶段:细粒度token融合——加权融合避免“信息稀释”

在每个片段内部,COMI根据token级的MIG值进行加权融合:高MIG的token(相关且独特)在融合中占据主导权重,低MIG的token(冗余重复)则被自然稀释。这一机制有效避免了传统平均池化导致的“关键细节被平滑掉”的问题,使压缩后的表示既紧凑又富含多样化的信息

COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

整个框架在NaturalQuestions、HotpotQA等5个数据集上仅需单次训练,即可应用于问答、摘要等多种长上下文任务。

实践出真知:高压缩率下的优越性能与深刻洞察

下游任务表现卓越

在32倍压缩约束下,以Qwen2-7B为基座模型的COMI,在NaturalQuestions数据集上实现了49.15的Exact Match(EM)分数,比次优基线高出近25个点。即使面对32K的超长文本(NarrativeQA),COMI仍能稳定保留推理链中的关键节点,证明了其在极端压缩场景下的鲁棒性。

COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

压缩不是“删减”,而是“提纯”

COMI甚至能提升原生支持256K上下文的Qwen3-4B模型的性能。 在NaturalQuestions上,经过32倍压缩后的COMI达到了28.89的F1分数,远超直接输入完整上下文所得的16.90。这证明高质量的压缩不仅是“减负”,更是通过消除冗余干扰实现“信息提纯”,让模型更聚焦于核心证据。

COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

效率与效果兼得

在32倍压缩下,COMI实现了端到端推理速度2倍以上的提升,且压缩阶段仅引入轻量级开销(在NarrativeQA任务中,压缩耗时2.76秒,生成仅需0.50秒),为工业级部署铺平了道路。

COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

总结

COMI为长上下文的高效推理提供了新范式:

它通过边际信息增益这一简洁而深刻的指标,将压缩目标从“保留相关片段”升级为“保留相关且多样化的信息”,从根本上破解了高压缩率下的性能瓶颈。粗到细的自适应策略则确保了压缩过程既符合全局信息分布,又能保留局部语义细节。

这项研究证明,真正的高质量压缩不是简单的“删减”——而是要让每一比特都承载多样化的信息价值,为大模型走向轻量化、实用化迈出了关键一步。

论文标题:COMI: Coarse-to-fine Context Compression via Marginal Information Gain
论文链接:https://arxiv.org/abs/2602.01719
代码链接:https://github.com/Twilightaaa/COMI


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22267

(0)
上一篇 2026年2月25日 下午6:39
下一篇 2026年2月25日 下午6:43

相关推荐

  • Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

    Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍 当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。 为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。 该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了…

    2026年3月17日
    22900
  • FAST-Prefill:FPGA动态稀疏注意力加速器,突破长上下文LLM预填充瓶颈,性能提升2.5倍

    FAST-Prefill 并非简单的算法硬件映射,而是一个硬件-算法深度协同设计的范例。它基于 Flex-Prefill 算法的计算模式与数据流特征,定制了专用的数据通路与访存策略。这项工作不仅提供了一个实用的加速方案,更确立了一种方法论启示:针对特定工作负载,精巧的架构设计往往比通用算力的堆砌更为高效。 关键词:FPGA 加速、稀疏注意力、长上下文 LLM…

    2026年3月4日
    22000
  • 美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 256K文本预加载提速超50%,并解锁了1M上下文窗口。 美团LongCat系列发布全新稀疏注意力机制LoZA。 该技术旨在集中解决长文本任务中的理解与算力难题。 相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解…

    2026年1月13日
    22600
  • 英伟达200亿美元豪购Groq:黄仁勋的AI推理野心与LPU芯片的颠覆性革命

    这个圣诞节,英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易,涉及金额高达200亿美元(约合人民币1405亿元)。 根据Groq官方声明,交易的核心内容是英伟达获得了Groq推理技术的授权,同时,Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…

    2025年12月25日
    39500
  • Parallel-Probe:大模型并行推理效率革命,计算浪费减少35.8%

    当大模型推理进入并行思考时代,一个关键问题随之浮现:在并行推理过程中,大量计算资源是否被浪费在了那些已无必要继续的思考路径上? 为探究此问题,来自马里兰大学、圣路易斯华盛顿大学及北卡罗来纳大学教堂山分校的研究团队提出了 Parallel-Probe。该研究并未直接从算法设计入手,而是首先引入 2D Probing 技术,系统性刻画了在线并行推理的全局动态特性…

    2026年3月7日
    19900