闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
256K文本预加载提速超50%,并解锁了1M上下文窗口。
该技术旨在集中解决长文本任务中的理解与算力难题。

相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解码速度,其表现甚至优于同类型的Qwen-3模型。
如何做到“只算关键部分”?
全注意力机制的算力瓶颈在于其平方级的计算复杂度O(L²),这导致模型在处理长文本时对硬件要求高,且存在推理延迟问题。LoZA的核心思路是聚焦于处理重要内容,减少对非关键部分的计算投入。

作为LongCat系列的核心技术升级,LoZA主要基于原有的MLA机制进行改造,具体分为两步。
首先,对模型中的多头潜在注意力模块进行全局“筛查”,以识别可被改造的模块。在原有MLA架构中,每个模块都是注意力计算的核心单元。新方案为每个模块引入一个可学习权重α。α值越高,表明该模块的全注意力计算越关键,简化后易导致性能损失;α值越低,则意味着该模块的可替代性强,即便替换为更轻量的计算方式,对整体理解能力的影响也较小。
在训练过程中,团队冻结模型的其他参数,仅更新α的梯度。通过这种专门的校准训练,模型自主学习α值。随后,按α值从小到大排序,筛选出那些稀疏化后不影响性能的MLA模块,作为后续的优化目标。
接着,将筛选出的50%低关键性模块替换为计算更轻巧的流式稀疏注意力模块。这种全注意力模块与稀疏注意力模块交错排列的结构,被团队称为ZigZag。
SSA的计算复杂度为线性O(L·S)(其中S为固定的稀疏窗口大小,1024个Token),远低于全注意力的O(L²)。因此,这种交错结构使模型在避免因过度简化而性能下降的同时,将整体计算复杂度降至线性级别,显著节省了算力。

为了确保模型在关注局部细节时不忽略整体逻辑,LoZA设计了一个1024 Token的稀疏窗口。每个窗口内包含1个负责捕捉整体关联的“全局块”和7个负责关注附近内容的“局部块”,单块大小为128 Token。
此项改造无需从头训练模型,在中期训练阶段即可完成,成本相对较低。
测试数据显示,LoZA在实现“更快” 的同时,做到了“没变笨”。
在速度方面,处理128K上下文时,解码速度比原版快10倍;处理256K上下文时,模型预加载(文本读取过程)速度提升50%,后续解码生成内容阶段还能节省30%的算力。这意味着同等硬件条件下,可同时处理的长文本任务量翻倍。这也使得LongCat-Flash-Exp模型得以解锁1M上下文窗口。

在性能方面,LoZA并未因架构简化而缩水。在处理问答、代码生成等日常任务时,其表现与原版LongCat-Flash持平;在处理长文本任务时,表现反而更优。

例如,在MRCR测试中,其表现反超了同样能处理1M长文本的Qwen-3模型,且更加稳定。

未来,团队计划让LoZA支持动态稀疏比例,使其能在短文本场景下自动多用全注意力以保证精度,在长文本场景下自动增加稀疏模块以提升效率,并计划适配多模态模型以处理长视频、长图文等内容。
论文地址:https://www.alphaxiv.org/abs/2512.23966
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17588
