美团LongCat技术突破：LoZA稀疏注意力机制实现10倍解码加速，轻松驾驭百万级长文本

2026年1月13日上午8:24 • 大模型推理 • 阅读 174

闻乐发自凹非寺

量子位 | 公众号 QbitAI

256K文本预加载提速超50%，并解锁了1M上下文窗口。

美团LongCat系列发布全新稀疏注意力机制LoZA。

该技术旨在集中解决长文本任务中的理解与算力难题。

相比LongCat系列之前的全注意力MLA机制，LoZA仅改造了一半的核心模块，却将模型的长文本处理能力从256K扩展到1M，同时显著提升了解码速度，其表现甚至优于同类型的Qwen-3模型。

如何做到“只算关键部分”？

全注意力机制的算力瓶颈在于其平方级的计算复杂度O(L²)，这导致模型在处理长文本时对硬件要求高，且存在推理延迟问题。LoZA的核心思路是聚焦于处理重要内容，减少对非关键部分的计算投入。

作为LongCat系列的核心技术升级，LoZA主要基于原有的MLA机制进行改造，具体分为两步。

首先，对模型中的多头潜在注意力模块进行全局“筛查”，以识别可被改造的模块。在原有MLA架构中，每个模块都是注意力计算的核心单元。新方案为每个模块引入一个可学习权重α。α值越高，表明该模块的全注意力计算越关键，简化后易导致性能损失；α值越低，则意味着该模块的可替代性强，即便替换为更轻量的计算方式，对整体理解能力的影响也较小。

在训练过程中，团队冻结模型的其他参数，仅更新α的梯度。通过这种专门的校准训练，模型自主学习α值。随后，按α值从小到大排序，筛选出那些稀疏化后不影响性能的MLA模块，作为后续的优化目标。

接着，将筛选出的50%低关键性模块替换为计算更轻巧的流式稀疏注意力模块。这种全注意力模块与稀疏注意力模块交错排列的结构，被团队称为ZigZag。

SSA的计算复杂度为线性O(L·S)（其中S为固定的稀疏窗口大小，1024个Token），远低于全注意力的O(L²)。因此，这种交错结构使模型在避免因过度简化而性能下降的同时，将整体计算复杂度降至线性级别，显著节省了算力。