美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

256K文本预加载提速超50%,并解锁了1M上下文窗口。

美团LongCat系列发布全新稀疏注意力机制LoZA

该技术旨在集中解决长文本任务中的理解与算力难题。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解码速度,其表现甚至优于同类型的Qwen-3模型。

如何做到“只算关键部分”?

全注意力机制的算力瓶颈在于其平方级的计算复杂度O(L²),这导致模型在处理长文本时对硬件要求高,且存在推理延迟问题。LoZA的核心思路是聚焦于处理重要内容,减少对非关键部分的计算投入。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

作为LongCat系列的核心技术升级,LoZA主要基于原有的MLA机制进行改造,具体分为两步。

首先,对模型中的多头潜在注意力模块进行全局“筛查”,以识别可被改造的模块。在原有MLA架构中,每个模块都是注意力计算的核心单元。新方案为每个模块引入一个可学习权重α。α值越高,表明该模块的全注意力计算越关键,简化后易导致性能损失;α值越低,则意味着该模块的可替代性强,即便替换为更轻量的计算方式,对整体理解能力的影响也较小。

在训练过程中,团队冻结模型的其他参数,仅更新α的梯度。通过这种专门的校准训练,模型自主学习α值。随后,按α值从小到大排序,筛选出那些稀疏化后不影响性能的MLA模块,作为后续的优化目标。

接着,将筛选出的50%低关键性模块替换为计算更轻巧的流式稀疏注意力模块。这种全注意力模块与稀疏注意力模块交错排列的结构,被团队称为ZigZag

SSA的计算复杂度为线性O(L·S)(其中S为固定的稀疏窗口大小,1024个Token),远低于全注意力的O(L²)。因此,这种交错结构使模型在避免因过度简化而性能下降的同时,将整体计算复杂度降至线性级别,显著节省了算力。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

为了确保模型在关注局部细节时不忽略整体逻辑,LoZA设计了一个1024 Token的稀疏窗口。每个窗口内包含1个负责捕捉整体关联的“全局块”和7个负责关注附近内容的“局部块”,单块大小为128 Token。

此项改造无需从头训练模型,在中期训练阶段即可完成,成本相对较低。

测试数据显示,LoZA在实现“更快” 的同时,做到了“没变笨”

在速度方面,处理128K上下文时,解码速度比原版快10倍;处理256K上下文时,模型预加载(文本读取过程)速度提升50%,后续解码生成内容阶段还能节省30%的算力。这意味着同等硬件条件下,可同时处理的长文本任务量翻倍。这也使得LongCat-Flash-Exp模型得以解锁1M上下文窗口。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

在性能方面,LoZA并未因架构简化而缩水。在处理问答、代码生成等日常任务时,其表现与原版LongCat-Flash持平;在处理长文本任务时,表现反而更优。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

例如,在MRCR测试中,其表现反超了同样能处理1M长文本的Qwen-3模型,且更加稳定。

美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

未来,团队计划让LoZA支持动态稀疏比例,使其能在短文本场景下自动多用全注意力以保证精度,在长文本场景下自动增加稀疏模块以提升效率,并计划适配多模态模型以处理长视频、长图文等内容。

论文地址:https://www.alphaxiv.org/abs/2512.23966


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17588

(0)
上一篇 2026年1月13日 上午8:15
下一篇 2026年1月13日 上午10:59

相关推荐

  • LLM推理优化全景图:从基础设施到模型算法的全栈工程实践

    本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

    2025年10月2日
    52912
  • Android异构硬件AI推理优化:NPU+INT8量化实现298倍加速的深度解析

    关键词: Android、异构计算、模型量化、ResNet、YOLO、高通骁龙 当你使用手机的“拍照识物”功能时,是否遇到过画面卡顿?当直播应用的实时美颜效果延迟明显时,你是否好奇问题出在哪里?这些场景背后,都指向移动 AI 推理的核心挑战:如何在手机有限的硬件资源下,让AI模型(如图像分类、目标检测)既跑得快(低延迟),又算得准(高精度),同时还不费电(低…

    2026年1月3日
    12400
  • 揭秘LLM推理两阶段瓶颈:从GPU微架构根源到跨场景高效部署策略

    关键词:LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability A Systematic Characterization of LLM Inference on GPUs ht…

    2025年12月26日
    14600
  • 清华MARSHAL框架:通过策略游戏自博弈激发大模型的多智能体推理泛化能力

    近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大语言模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水平,更将其推理能力有效泛化到了通用的多智能体系统中:在数学竞赛和专家级问答等一般推理任务中,显著提升了多智能体系统的整体表现。 论文标题:MARSHAL: …

    2026年1月9日
    7300
  • 移动端大模型部署新突破:Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型

    想在手机上流畅运行一个像样的语言模型?过去这通常意味着要忍受缓慢的速度或严重的精度损失。如今,Unsloth 发布了一份详尽的教程,指导开发者如何将其平台微调的模型直接部署到 Pixel 8 和 iPhone 15 Pro 上。 这项部署的核心是 Meta 为 Instagram 和 WhatsApp 等应用开发的 ExecuTorch 技术。该技术专为移动…

    2025年12月21日
    14600