在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多步、多跳逻辑链的数学推理、科学问答或深层语义理解时,往往显得力不从心,甚至出现“一本正经地胡说八道”的现象。

问题的根源在于标准注意力机制的静态性与浅层性。在传统架构中,每个词元(Token)的查询(Query)和键(Key)向量通过固定的线性变换矩阵(W_Q, W_K)独立生成,这个过程与序列中的其他词元完全隔离。因此,注意力权重仅能反映两个词元之间的直接、瞬时关联,无法建模如“A通过B认识C”这类涉及中间节点和多跳路径的复杂关系。这种架构缺陷直接制约了模型在需要演绎、归纳或因果推理任务上的表现上限。
近期,华为诺亚方舟实验室发布的一项突破性研究,为这一核心难题提供了全新的解决方案。团队提出了一种名为“Nexus”的高阶注意力机制(Higher-Order Attention Mechanism),旨在从架构层面增强模型的复杂关系建模与多步推理能力。

Nexus的核心创新在于对注意力计算过程进行了根本性重构,通过引入递归嵌套的注意力层,使模型能够动态地构建并遍历内部推理链,从而实现对高阶、间接关联的有效捕捉。
要深入理解Nexus的革新之处,首先需剖析其与传统自注意力机制的三重精妙差异。标准自注意力遵循公式:Attention(Q, K, V) = softmax(QK^T/√d_k)V,其中Q、K、V由输入序列X经线性投影得到。

这种设计的局限性在于Q和K的生成是上下文无关的,每个词元仅依赖自身信息,导致注意力权重无法体现超越二元关系的复杂交互。
Nexus的第一项革新在于动态化Q与K的生成过程。它摒弃了简单的线性投影,转而将Q和K的生成本身设计为一个注意力操作。具体而言,每个词元在计算最终Q和K之前,会先经历一个“预推理”阶段:通过一个内嵌的自注意力模块,从全局上下文中聚合信息,形成更具上下文感知能力的中间表示。

这一过程相当于让每个词元在参与外部注意力交互前,先进行一轮内部深思熟虑,充分吸收其在序列中的语义环境,从而使得生成的Q和K向量具备动态性与适应性,为建模多跳关系奠定基础。
第二项革新是引入了递归框架(Recursive Framework)。Nexus将上述内嵌注意力模块设计为可递归嵌套的结构。定义第m阶注意力时,其Q和K由第(m-1)阶注意力的输出生成。

当m=1时,即为标准注意力;m=2时,Q和K由一层内部注意力生成,可建模二阶关系(如“张三通过李四认识王五”);m=3则可对应三阶关系,形成“注意力的注意力的注意力”。这种递归结构天然支持层次化推理链的构建,模拟人类解决复杂问题时从局部到整体、从直接到间接的思维过程,例如在数学解题中先识别变量,再建立方程关系,最后验证逻辑一致性。
第三项革新,也是Nexus最具实用价值的设计,在于其实现了“参数零增”的架构增强。复杂化的模型结构常伴随参数量的膨胀与计算开销的激增,但Nexus通过巧妙的权重共享策略规避了这一问题。在内层与外层的所有注意力模块中,模型复用同一组投影权重(W_Q, W_K, W_V)。

这意味着尽管计算路径更为深层次复杂,模型的总参数量与原始Transformer保持完全一致。这一设计基于一个关键假设:不同递归层级中,将词元语义映射到查询或键空间的变换方式是相似的。实验验证表明该假设成立,在Pythia-70M模型的消融实验中,采用权重共享的Nexus版本在多项推理任务上平均准确率提升近1%,而参数量无任何增加,堪称高效的“表达密度提升器”。
实验数据充分印证了Nexus架构的有效性。研究团队从两个维度进行了验证:一是从头训练小规模模型,二是在现有大模型上进行架构替换微调。在从头训练的Pythia系列模型(70M至1B参数)上,Nexus在ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ六个标准推理基准上全面超越原始Transformer。

尤其在需要科学常识与多步推理的任务上提升显著:在SciQ数据集上,70M参数模型的准确率从61.5%提升至68.5%;在PiQA物理推理任务上,1B模型从62.5%提升至63.6%。这表明Nexus确实增强了模型超越表面模式匹配的深层推理能力。
更令人瞩目的是其即插即用的适配性。团队将Qwen2.5的1.5B和7B模型中的标准注意力层直接替换为Nexus结构,仅进行监督微调而不改动预训练权重。在MATH-500、AIME24、GPQA-Diamond等高难度数学推理基准上,Nexus均带来稳定提升。

例如,Qwen2.5-1.5B在MATH-500上准确率从78.6%提升至80.1%;Qwen2.5-7B在AIME24(美国数学邀请赛试题)上从45.2%提升至47.5%。AIME24题目要求严格的多步推导,单步错误即导致失败,Nexus的提升有力证明了其内部构建了更连贯、稳健的推理链。
综上所述,华为诺亚方舟实验室的Nexus架构不仅为Transformer的推理瓶颈提供了创新解法,更开辟了一条通过架构内生性增强而非单纯参数扩张来提升模型智能水平的路径。它通过动态Q/K生成、递归注意力嵌套与权重共享三大设计,实现了对复杂高阶关系的高效建模,且在参数零增的前提下,显著提升了模型在数学、科学等复杂推理任务上的性能。这一突破不仅对当前大模型的架构优化具有直接参考价值,也为未来面向更复杂认知任务的AI系统设计提供了重要启示。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5537
