美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

256K文本预加载提速超50%,并解锁了1M上下文窗口。

美团LongCat系列发布全新稀疏注意力机制LoZA

该技术旨在集中解决长文本任务中的理解与算力难题。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解码速度,其表现甚至优于同类型的Qwen-3模型。

如何做到“只算关键部分”?

全注意力机制的算力瓶颈在于其平方级的计算复杂度O(L²),这导致模型在处理长文本时对硬件要求高,且存在推理延迟问题。LoZA的核心思路是聚焦于处理重要内容,减少对非关键部分的计算投入。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

作为LongCat系列的核心技术升级,LoZA主要基于原有的MLA机制进行改造,具体分为两步。

首先,对模型中的多头潜在注意力模块进行全局“筛查”,以识别可被改造的模块。在原有MLA架构中,每个模块都是注意力计算的核心单元。新方案为每个模块引入一个可学习权重α。α值越高,表明该模块的全注意力计算越关键,简化后易导致性能损失;α值越低,则意味着该模块的可替代性强,即便替换为更轻量的计算方式,对整体理解能力的影响也较小。

在训练过程中,团队冻结模型的其他参数,仅更新α的梯度。通过这种专门的校准训练,模型自主学习α值。随后,按α值从小到大排序,筛选出那些稀疏化后不影响性能的MLA模块,作为后续的优化目标。

接着,将筛选出的50%低关键性模块替换为计算更轻巧的流式稀疏注意力模块。这种全注意力模块与稀疏注意力模块交错排列的结构,被团队称为ZigZag

SSA的计算复杂度为线性O(L·S)(其中S为固定的稀疏窗口大小,1024个Token),远低于全注意力的O(L²)。因此,这种交错结构使模型在避免因过度简化而性能下降的同时,将整体计算复杂度降至线性级别,显著节省了算力。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

为了确保模型在关注局部细节时不忽略整体逻辑,LoZA设计了一个1024 Token的稀疏窗口。每个窗口内包含1个负责捕捉整体关联的“全局块”和7个负责关注附近内容的“局部块”,单块大小为128 Token。

此项改造无需从头训练模型,在中期训练阶段即可完成,成本相对较低。

测试数据显示,LoZA在实现“更快” 的同时,做到了“没变笨”

在速度方面,处理128K上下文时,解码速度比原版快10倍;处理256K上下文时,模型预加载(文本读取过程)速度提升50%,后续解码生成内容阶段还能节省30%的算力。这意味着同等硬件条件下,可同时处理的长文本任务量翻倍。这也使得LongCat-Flash-Exp模型得以解锁1M上下文窗口。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

在性能方面,LoZA并未因架构简化而缩水。在处理问答、代码生成等日常任务时,其表现与原版LongCat-Flash持平;在处理长文本任务时,表现反而更优。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

例如,在MRCR测试中,其表现反超了同样能处理1M长文本的Qwen-3模型,且更加稳定。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

未来,团队计划让LoZA支持动态稀疏比例,使其能在短文本场景下自动多用全注意力以保证精度,在长文本场景下自动增加稀疏模块以提升效率,并计划适配多模态模型以处理长视频、长图文等内容。

论文地址:https://www.alphaxiv.org/abs/2512.23966


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/17588

(0)
上一篇 2026年1月13日 上午8:15
下一篇 2026年1月13日 上午10:59

相关推荐

  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    28500
  • 颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

    造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …

    2026年2月21日
    74500
  • AMD ATOM推理引擎:如何用分页KV缓存和分段编译实现大模型推理性能翻倍

    在探讨大模型推理优化时,最引人注目的往往是单一算子的性能提升:GEMM 加速了多少,Attention 快了百分之几,MoE 路由是否已经融合。然而,真正左右线上服务体验的,并非单个 kernel 的峰值指标,而是一条请求从 HTTP 入口进入,经历分词、调度、写入 KV 缓存、进入 GPU 图执行、经过采样,再到流式返回的完整生命周期。 以下图表展示了 D…

    大模型推理 2026年5月4日
    18100
  • ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

    多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。 在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任…

    2025年12月17日
    45800
  • 让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

    当前主流的搜索智能体(Agent)普遍存在一个效率瓶颈:其执行流程是严格串行的。以广泛采用的ReAct框架为例,其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下,模型在等待搜索引擎返回结果时完全处于空闲状态,造成了大量的时间浪费。多轮交互中,延迟不断累积,严重影响了用户体验。 研究团队通过分析发现,在多跳问答等复杂任务中,这种“干等”的串行…

    2026年3月1日
    25300