美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

256K文本预加载提速超50%,并解锁了1M上下文窗口。

美团LongCat系列发布全新稀疏注意力机制LoZA

该技术旨在集中解决长文本任务中的理解与算力难题。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解码速度,其表现甚至优于同类型的Qwen-3模型。

如何做到“只算关键部分”?

全注意力机制的算力瓶颈在于其平方级的计算复杂度O(L²),这导致模型在处理长文本时对硬件要求高,且存在推理延迟问题。LoZA的核心思路是聚焦于处理重要内容,减少对非关键部分的计算投入。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

作为LongCat系列的核心技术升级,LoZA主要基于原有的MLA机制进行改造,具体分为两步。

首先,对模型中的多头潜在注意力模块进行全局“筛查”,以识别可被改造的模块。在原有MLA架构中,每个模块都是注意力计算的核心单元。新方案为每个模块引入一个可学习权重α。α值越高,表明该模块的全注意力计算越关键,简化后易导致性能损失;α值越低,则意味着该模块的可替代性强,即便替换为更轻量的计算方式,对整体理解能力的影响也较小。

在训练过程中,团队冻结模型的其他参数,仅更新α的梯度。通过这种专门的校准训练,模型自主学习α值。随后,按α值从小到大排序,筛选出那些稀疏化后不影响性能的MLA模块,作为后续的优化目标。

接着,将筛选出的50%低关键性模块替换为计算更轻巧的流式稀疏注意力模块。这种全注意力模块与稀疏注意力模块交错排列的结构,被团队称为ZigZag

SSA的计算复杂度为线性O(L·S)(其中S为固定的稀疏窗口大小,1024个Token),远低于全注意力的O(L²)。因此,这种交错结构使模型在避免因过度简化而性能下降的同时,将整体计算复杂度降至线性级别,显著节省了算力。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

为了确保模型在关注局部细节时不忽略整体逻辑,LoZA设计了一个1024 Token的稀疏窗口。每个窗口内包含1个负责捕捉整体关联的“全局块”和7个负责关注附近内容的“局部块”,单块大小为128 Token。

此项改造无需从头训练模型,在中期训练阶段即可完成,成本相对较低。

测试数据显示,LoZA在实现“更快” 的同时,做到了“没变笨”

在速度方面,处理128K上下文时,解码速度比原版快10倍;处理256K上下文时,模型预加载(文本读取过程)速度提升50%,后续解码生成内容阶段还能节省30%的算力。这意味着同等硬件条件下,可同时处理的长文本任务量翻倍。这也使得LongCat-Flash-Exp模型得以解锁1M上下文窗口。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

在性能方面,LoZA并未因架构简化而缩水。在处理问答、代码生成等日常任务时,其表现与原版LongCat-Flash持平;在处理长文本任务时,表现反而更优。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

例如,在MRCR测试中,其表现反超了同样能处理1M长文本的Qwen-3模型,且更加稳定。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

未来,团队计划让LoZA支持动态稀疏比例,使其能在短文本场景下自动多用全注意力以保证精度,在长文本场景下自动增加稀疏模块以提升效率,并计划适配多模态模型以处理长视频、长图文等内容。

论文地址:https://www.alphaxiv.org/abs/2512.23966


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17588

(0)
上一篇 2026年1月13日 上午8:15
下一篇 2026年1月13日 上午10:59

相关推荐

  • MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

    最近,有用户发现了一个有趣的现象:MiniMax的模型在处理“马嘉祺”这个名字时,出现了识别异常。 起初这被认为是个偶然事件。但经过多方测试,该问题在不同接口和平台上均能稳定复现。 甚至有人调侃道:未来如果在OpenRouter上出现一个匿名模型,且它认不出“马嘉祺”,那么它很可能就来自MiniMax。 测试表明,无论是在MiniMax官方的Agent平台,…

    1天前
    6600
  • 清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

    在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…

    2025年12月26日
    20400
  • PaddleOCR-VL:文档理解新突破,复杂表格公式一键精准解析

    传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时,往往输出杂乱,需要大量人工整理。近期,百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。 尽管其参数量仅为 9 亿,但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分,位列榜首。在推理速度上,相比同类模型 Mine…

    2025年11月5日
    16600
  • SGLang发布迷你版:5千行代码实现LLM推理核心,性能媲美完整版

    SGLang团队近日发布了mini-SGLang,将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术,包括重叠调度、FlashAttention-3、基数缓存等,在在线服务场景下的性能表现与完整版几乎无异。 为何推出迷你版 许多开发者希望深入理解现代大语言模型推理的内部机制,但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…

    2025年12月20日
    43200
  • 颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

    造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …

    2026年2月21日
    22800