注意力机制优化

大模型推理

突破注意力瓶颈！FlatAttention数据流+片上集合通信协同优化，晶圆级系统实现2.9倍吞吐量提升

关键词：晶圆级系统、大语言模型推理、FlatAttention 数据流、片上集合通信、软硬协同设计随着大语言模型（LLM）推理的序列长度急剧增长以及混合专家（MoE）架构的普及，注意力（Attention）算子已成为制约系统整体吞吐量的核心瓶颈。传统的优化手段多局限于算法改进或硬件带宽升级等单一维度。图 1：(a) 大语言模型在预填充与解码阶段的浮点运算…

2026年4月7日
416000
AI产业动态

FlashMoBA：突破稀疏注意力瓶颈，MoBA机制在长上下文处理中的硬件优化革命

在人工智能领域，处理长上下文序列一直是大型语言模型面临的核心挑战之一。传统的密集注意力机制虽然功能强大，但其计算复杂度随序列长度呈二次方增长，这严重限制了模型处理长文本、代码或多轮对话的能力。今年2月，月之暗面提出的MoBA（Mixture of Block Attention）机制为这一难题提供了创新解决方案。MoBA将混合专家（MoE）原理引入注意力机制…

2025年11月18日
375000