我们每天都在与大语言模型(LLM)打交道。一个直观的感受是,它们似乎真的能听懂我们在说什么,尽管偶尔也会出现“幻觉”。更令人惊叹的是,当观察LLM输出的“思维链”(即其推理过程的语言表达)时,我们甚至会感到它们仿佛拥有了类似人类的思考能力。
近期,字节跳动的李航、张少华、林苑发表了一篇研究论文,深入探讨了以下核心问题:LLM所具备的语言理解和思考能力,其本质究竟是什么?这些能力又是如何通过其底层的实现原理、方法论以及工作机制逐步构建起来的?
- 论文全文链接:https://github.com/hangli-hl/AI-Articles/tree/main
LLM技术虽由人类创造,其实现原理也清晰明了,但其内部的工作机制(Mechanics)至今仍未被完全洞悉。由于LLM规模极其庞大,其工作机制也异常复杂,这给深入研究其能力带来了巨大挑战。
自ChatGPT问世以来,围绕LLM机制与特性的研究如雨后春笋般涌现,尤其是近年来关于其工作机制(或称可解释性)的探讨。这些工作从不同维度对这一人工智能领域的核心课题给出了初步解答,但仍有大量谜题等待未来的研究去破解。
该论文系统总结了LLM的基本原理与实现方法,并简要介绍了当前关于LLM工作机制的研究进展,其中特别包括了字节跳动在LLM记忆机制方面的贡献。在此基础上,作者对LLM能力的形成过程提出了自己的见解。
引用:LLM记忆机制论文:Shaohua Zhang, Yuan Lin, Hang Li, Memory Retrieval and Consolidation in Large Language Models through Function Tokens, 2025. https://arxiv.org/abs/2510.08203
1 主要观点
文章阐述了以下几个核心论点:
- LLM学习到的是语言使用与推理的模式,其关键在于掌握了这些模式的“高阶”形态。 LLM的学习本质上是机器学习,其习得的内容是数据中的统计规律,即“模式”。语言数据包罗万象,涵盖了词汇、语法、语义、语用以及世界知识。研究表明,LLM不仅掌握了与词汇、语法相关的低阶模式,更习得了与语义、语用和世界知识相关的高阶模式(Higher Order Patterns)。此前的语言模型往往难以做到这一点,而这正是ChatGPT及后续LLM能够“涌现”出强大能力的关键。因此,认为LLM只学到了语言形式而未能理解其内容的观点(如乔姆斯基的看法)是缺乏说服力的。
- 可以用“下一个词元预测”(Next Token Prediction, NTP)来概括其基本原理,但整体能力是由策略、模型、算法和数据等多个要素共同决定的。 LLM的学习与推理过程看似是NTP,但这仅停留在表面。其具体的实现方法和特性更为关键。预训练阶段使用的极大似然估计(等价于数据压缩)旨在估计词元序列的概率分布。后训练阶段的强化学习则用于微调模型,使其成为能生成最优词元序列的策略函数。作为模型的Transformer拥有极强的语言与知识表征能力,而随机梯度下降等优化算法则有助于找到泛化能力强的解。LLM的成功关键在于对这些技术的系统性整合与规模化应用。简单地将LLM的成功归因于NTP,是一种过于简化的理解。
- LLM的内部机制已得到了初步的解析与理解。 近年来,LLM的可解释性研究取得了显著进展,它对我们而言已不再是完全的“黑盒”。借助SAE等工具,我们可以提取LLM中的特征;利用CLT等工具,则可以追踪特征之间形成的回路。字节跳动最近的研究更是揭示了LLM中特征在学习过程中被记忆、在推理时被检索的规律。随着研究的深入,LLM的工作机制将逐步被我们解析和掌握。
2 LLM的工作机制
对LLM的研究可以从三个视角展开:机器学习方法与理论、外部提示实验分析,以及内部工作机制研究。如果将LLM比作人脑,那么工作机制的研究就相当于进行脑科学实验。
2.1 特征叠加
神经网络的每一层都可能存在“特征叠加”(Superposition)现象。传统观点认为,一个神经元对应表示一个特征。然而,大量实验表明,这种理想情况在实际网络中十分罕见。相反,神经元与特征之间通常呈现多对多的关系:一个神经元参与多个特征的表示,而一个特征则由多个神经元共同表示。

图 1:LLM的语言、思考能力、工作机制与实现原理之间的关系。
Anthropic 研究团队提出了“特征叠加假说”(Superposition Hypothesis)。其核心思想是:通过特征叠加,神经网络某一层的神经元可以近似表示远多于其自身数量的特征,其代价是特征之间存在一定程度的干扰。
神经网络的一层(称为实际层)可以表示为:

其中,$x$ 是输入向量,位于输入空间中;$W$ 是权重矩阵;$b$ 是偏置向量;$h$ 是输出向量或特征向量;ReLU 是激活函数。
特征叠加理论指出,存在一个更宽的假想神经网络层,它使用更多神经元来显式表示大量特征:

其中,$h’$ 是特征向量,其每一维对应一个特征,且满足

,即宽层的维度远大于实际层的维度;$W’$ 和 $b’$ 是权重矩阵和偏置向量。
关键在于,宽层的特征向量 $h’$ 是稀疏的,而实际层的特征向量 $h$ 则是稠密的。稀疏性意味着对于每个输入,只有少数特征被激活(例如,一万个特征中只有几十个被激活),从而使得不同特征之间的干扰较小。
特征叠加假说认为,宽层与实际层之间存在近似等价的关系。具体来说,两者都能通过线性变换近似复原输入向量 $x$,得到近似重建 $hat{x}$,如图 2 所示。因此,可以认为在实际网络中,稀疏的特征向量 $h’$ 被压缩到了稠密的特征向量 $h$ 之中。稀疏的特征向量 $h’$ 近乎相互独立(非叠加),而稠密的特征向量 $h$ 则是被叠加的。

图 2:原始的前馈神经网络与近似等价的更宽神经网络。
高维几何理论为宽层的存在提供了理论支撑。在相关定义条件下,$n$ 维空间中近乎正交的基向量个数可以达到 $n$ 的指数级。假设

是输入空间的一组近乎正交的基向量,则输入向量可近似分解为:

这里,每一个基向量 $e_i$ 及其激活值 $a_i$ 对应一个特征。基向量近乎正交且特征向量稀疏,这就能很好地表示输入向量,并减少特征之间的干扰。
特征叠加假说认为,深度学习方法能够实现这一效果,即实际层(稠密特征向量)完成了对宽层(稀疏特征向量)的压缩,或者说实际层隐式地蕴含了宽层。这主要归因于两点。
首先,一般的输入向量 $x$ 所包含的特征数量是稀疏的。例如,在处理“我访问了金门大桥”中的“桥”这一词元时,宽层特征向量 $h’$ 中可能只有少数几个特征被激活(如“金门大桥”、“旧金山”、“桥梁结构”、“旅游景点”等),其余特征取值均为零。这种稀疏性保证了大量近乎正交特征之间的干扰足够小,使得叠加机制切实可行。
其次,在训练过程中,神经网络通过梯度下降最小化损失函数。当网络面临“表示尽可能多的特征”与“使用尽可能少的神经元”这两个目标时,特征叠加便成为一种自然的优化结果。此外,ReLU 激活函数的使用也促进了特征向量的稀疏化,因为较弱的激活值会被截断为零。
上述特征叠加假说的合理性,已在 Anthropic 的玩具模型(toy model)模拟实验中得到验证,并在后续稀疏自编码器(Sparse Autoencoder)的开发与应用中获得了进一步的支持。
2.2 SAE:特征分析
大模型语言理解机制深度解析(二)
2.2 稀疏自编码器(SAE)与特征解构
稀疏自编码器(Sparse Autoencoder,SAE)是一种用于剖析神经网络内部机理的有效工具,其核心价值在于能够识别出网络内部具有可解释性的特征模式。在针对大型语言模型(LLM)的可解释性研究中,SAE 通常被应用于 Transformer 架构的残差流上,具体操作对象是每一层输出的表示向量。
SAE 与“特征叠加”理论之间形成了一种相辅相成的互补关系。特征叠加可被视作一种信息的压缩过程:模型通过隐式的高维、稀疏特征向量来表示输入的原始向量。而 SAE 则扮演了“解压缩”的角色:它将输入的向量分解为同样高维且稀疏的特征向量。这种“压缩—解压”的对称关系,使得 SAE 成为了研究和分析特征叠加现象不可或缺的关键工具。
SAE 的基本架构由编码器(Encoder)和解码器(Decoder)两部分构成。首先,编码器通过非线性变换,将输入的向量转换成一个高维且稀疏的特征向量:

其中,

代表来自 LLM 某一层的残差流,

是编码器的权重矩阵,是偏置向量,

则是最终得到的特征向量。这里满足

的条件,意味着特征向量的维度远大于输入向量的维度。
随后,解码器通过一个线性变换,尝试从特征向量中重构出原始的输入向量:

此处,是解码器的权重矩阵,是偏置向量。值得注意的是,解码器采用了无激活函数的线性变换,这一设计选择与特征叠加理论中关于特征线性组合的基本假设保持一致。
在 SAE 的训练过程中,需要在一个双重目标之间进行权衡:一方面,要求重构向量 尽可能接近原始的输入向量;另一方面,需要引入或近似 正则化项,以强制特征向量 保持稀疏性。
在实际应用中,SAE 的训练需要从目标 LLM 中提取海量数据。具体做法是,将大规模语料输入到 LLM 中,并收集模型在处理每个词元时所产生的激活向量(例如每一层的残差流)。这些向量

共同构成了 SAE 的训练数据集。训练完成之后,对于任意给定的输入 ,编码器输出的 通常会表现出很强的稀疏性。
通过 SAE 提取出的稀疏激活特征,与特征叠加理论的预测结果高度吻合,即模型可能将远超神经元数量的潜在概念编码在同一个神经元中。例如,研究人员在对大语言模型进行分析时,已经成功提取出了数十万甚至上百万级别的特征。其中一些特征具有明确的语义含义,例如与特定实体(如“金门大桥”)或特定行为(如“谄媚”,Sycophancy)相关的特征。
进一步的分析表明,大语言模型内部的特征往往呈现出一种层次化的组织架构:浅层主要编码的是输入文本的词法和简单语法特征;中间层则包含了大量复杂的语法和基本语义特征;而深层则主要处理复杂语义、推理实现以及最终输出表达相关的特征。
2.3 记忆机制:功能词元假说
字节跳动的研究团队提出了“功能词元假说”,用以揭示大语言模型记忆机制的基本规律。该假说认为,LLM 中特征的记忆是围绕“功能词元”来组织的,而特征在特定上下文中的检索过程,同样也是通过功能词元来完成的。
所谓功能词元,指的是在训练语料中出现频率最高的那一类词元。它们大多对应语言学中的功能词,在语法结构和上下文衔接中扮演着关键角色。例如,冠词“the”、标点符号(逗号、句号)、以及换行符等。与之相对的是“内容词元”,它们承载着明确且丰富的语义信息。统计数据显示,在大规模预训练语料中,排名前 100 多个的高频词元,其出现次数就占据了所有词元总出现次数的约 40%。
在 LLM 的预训练阶段,学习过程呈现出一种以功能词元为中心的显著特点。通过将训练损失按照功能词元和内容词元的四种组合进行分解观察,研究者发现,“功能词元 → 内容词元”这一组合的损失函数下降得最为缓慢。这意味着,根据一个功能词元来预测下一个内容词元是最具挑战性的任务。从语言学角度来看,这很合理,因为功能词元往往标志着前一个语言单元(Chunk)的结束。要准确预测它之后的内容词元,模型必须对从文本开头到当前位置的整个上下文有深刻的理解。可以推断,正是这种最困难的预测任务,成为了驱动模型优化的主导力量。
另一个重要发现是,功能词元在训练过程中能够激活大部分特征(在不同的上下文中激活不同的稀疏特征)。如果将功能词元和特征之间建立一张二部图——每当一个功能词元在某个上下文中激活了某个特征,就在两者之间建立一条边——那么随着训练的深入,这张二部图上的边会不断增加。最终,少量的功能词元就能与绝大部分特征建立联系。数据显示,前 10 个最高频的功能词元能够激活 70% 的特征。这意味着,这些功能词元(在不同的上下文中)有能力激活大部分特征。这里同样遵循着幂律分布。
在推理过程中,功能词元发挥着记忆检索的核心作用。它们能够从上下文中动态地激活最具预测性的特征,从而指导下一个词元的生成。例如,如图 3 所示,当提示为“Answer the question in Chinese: What is the capital of Russia?”时,功能词元(如冒号“:”和换行符)会激活上下文中“用中文回答”和“俄罗斯”等特征,同时抑制无关特征,最终引导模型用中文生成答案“莫斯科”。这种动态的特征选择与组合能力,正是功能词元区别于内容词元的关键特性。

图 3:LLM 推理过程中功能词元发挥着记忆检索的核心作用。
功能词元之所以能在 LLM 中发挥如此关键的作用,是训练目标、学习算法、模型架构和语言特性共同作用的结果。首先,下一词元预测的训练目标(交叉熵损失)要求模型最大化预测准确性,而梯度下降算法总是优先降低损失最大的部分。其次,Transformer 架构中的前馈网络层能将知识(特征)进行很好的表示和记忆,而自注意力层则能将低阶的知识(特征)有效地组合成高阶的知识(特征)。最后,自然语言本身的结构特性起到了决定性作用:文本总是被功能词元分割成嵌套的 Chunk(可以是短语、句子或段落)。因此,对功能词元之后的预测,需要理解从文本开头到该位置的整个上下文语义。这是一项极具挑战性的任务,它促使功能词元在训练中获得连接大部分特征的能力,并在推理时重新激活最具预测性的特征。
功能词元假说对 LLM 的训练实践具有深刻的启示意义。其中最重要的一点是,训练数据的格式至关重要。多项研究的结果都印证了这一点。在后训练阶段,仅需少量训练步骤就能显著提升模型的指令遵循、思维链推理等能力。这可能是因为后训练通过调整功能词元的激活模式,激活了预训练期间已经习得的特征。例如,功能词元(如“thus”)在强化学习训练中能够显著提升推理性能。
2.4 回路分析:CLT 方法
回路(Circuit)是指在 LLM 中跨层连接特征的计算图,它用于表示模型中的特征是如何被激活和传播的。由于 SAE 只能观察单层的特征,存在较大的局限性。为了分析跨层特征的连接和影响关系,研究者提出了 CLT(Cross Layer Transcoder,跨层转码器)方法。
CLT 的工作原理是:以某一层的残差流 作为输入,模型将其映射到后续各层的残差流

。通过这种方式,CLT 能够学习到一个跨层对齐的特征字典,从而捕捉不同层之间的特征影响关系。
CLT 在每一层都有一个类似 SAE 的特征抽取模块,但其优化目标有很大不同。每一层的输出是复现后续各个层的残差流。它由非线性变换(对应编码器)、线性变换(对应跨层映射)以及线性解码变换组成:

其中,

是第 层编码器权重矩阵, 是偏置向量;

是第

层解码器权重矩阵,

是偏置向量;

是将特征从第 层映射到第

层的跨层线性变换权重矩阵,

是偏置向量。通过跨层线性变换,

实现了从第 层特征空间到第

层特征空间的线性投影。CLT 的训练目标由所有层的重构误差的最小化和稀疏性正则化共同组成。
基于 CLT 的分析结果可以构建归因图(Attribution Graph),该图能够直观地展示特征在模型各层之间的线性映射关系,从而帮助研究人员理解 LLM 内部的知识表示和计算机制。
归因图的构建与分析
归因图的构建基于训练完成的 CLT 模型。首先,针对一个具体的输入提示,运行原始的 Transformer 模型,并记录每一层中的残差流。随后,利用 CLT 从每一层提取稀疏特征

,并通过跨层映射矩阵

来解析这些特征之间的映射关系。
归因图本质上是一个有向无环图,它描绘了从输入词元到输出词元的完整计算路径。在该图中,节点代表模型中激活的特征或词元嵌入,而边则表示节点之间相互影响的关联。具体而言,如果特征在某一层的激活

,并且通过跨层映射

对另一特征在另一层

的激活产生了显著贡献,那么图中就会添加一条从节点

指向节点

的有向边。
为了提升归因图的可解释性,采用剪枝技术对其进行精简。通过设定阈值,仅保留激活强度高且贡献度显著的节点和边。此外,利用梯度回传方法,识别出对最终输出贡献最大的关键路径。经过精简后的归因图能够更清晰地展示模型内部的特征激活与推理路径,从而揭示模型在特定场景下的核心特征回路。

图 4:基于 CLT 构建的归因图,用于分析 LLM 的内部计算机制。来源:anthropic blog:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
3. LLM 的语言理解和推理
3.1 LLM 的能力
3.1.1 高阶模式
从行为表现来看,大语言模型已经展现出与人类相当甚至超越人类的语言与推理能力。以图灵测试作为衡量标准(即考察模型在对话中是否无法与人类区分),LLM 已经达到了人类水平。
LLM 所学到的不仅是语言的低阶模式,更涵盖了语言与推理的高阶模式。这一点在日常使用中可以得到直观验证。例如,LLM 能够理解并执行“喜马拉雅山有多高,用英文回答”这类指令,这体现了其语用能力;它还能辨析“金门大桥与金拱门的关系”这类涉及概念异同的问题,显示出语义理解与世界知识的整合能力。
从内部机制分析的角度看,“金门大桥”、“谄媚”等概念特征在模型中的存在,同样揭示了 LLM 具备语义与语用层面的理解能力。
乔姆斯基曾批评 LLM 仅学习了语言的表层统计规律。然而,上述事实表明这一判断并不成立。但这并不意味着 LLM 与人类语言能力完全等同。事实上,LLM 的语言机制与人类大脑存在显著差异。例如,人脑的语言理解依赖于布洛卡区与韦尼克区两个脑区的协同工作:前者主要负责语法处理,后者则承担词汇处理功能。
3.1.2 整体机制
大语言模型的整体工作机制可以从训练方式、策略、算法和模型几个维度来理解(见图 5)。其训练方式通常包括预训练和后训练两个阶段,通过两步训练融合,使模型在同一体系中同时具备语言理解、生成与推理能力。在机制上,LLM 基于自回归预测,即根据已有上下文逐步预测下一个词,这一过程也可以看作一种序列决策过程。

图 5:LLM 的机制可以从训练方式、策略、算法和模型来理解。
在预训练阶段,模型通过大规模语料学习统计规律,给定足够长的上文后,下一个词元的概率分布往往会更加集中;而在后训练阶段,通过人类反馈或策略优化,使模型在相同上下文下更倾向于生成最合理、最符合人类偏好的下文。
从技术实现上看,学习策略负责定义预测目标和优化方向,算法用于调整模型参数以达到最优目标,而模型结构则决定了表达能力。具体来说,通过自注意力机制实现特征组合,通过前馈网络进行特征检测(非线性变换),并通过多层结构形成层次化表示。这些都对 LLM 的类人语言和推理能力起着重要作用。
模型性能的提升还体现出明显的规模效应:随着数据量、参数规模和计算资源的增加,模型能力会产生质的飞跃。同时,数据质量和训练设计(例如高质量语料和系统提示设计)也对效果至关重要。
这样训练得到的 LLM 中形成了大量特征,表示着各种不同的概念。根据不同的上下文,这些特征被激活,动态形成回路,从而实现复杂的语言处理和推理机制。
3.2 与人类能力的比较
表 1 对比了 LLM 与人类的能力。可以看出,LLM 在语言与推理任务上已具备与人类相当甚至超越人类的水平。然而,在其他能力维度上,两者不仅机制可能存在根本差异,其性能也并非简单可比。下面对此进行简要说明与讨论。

表 1: LLM 与人类能力比较
幻觉本质源于对事实的判断错误。LLM 自身无法解决幻觉问题,因为它学习的是语言数据中的统计规律。理论证明,在一定假设条件下,语言生成过程中一定会以一定概率产生幻觉。幻觉问题可通过其他机制加以缓解,例如检索增强生成(RAG)。
人的思考包含多个方面,不仅涉及语言、推理和数学,还与五种感官(视觉、听觉、触觉、嗅觉、味觉)以及运动系统密切相关。具身认知假说认为,思考的过程并非纯粹的符号运算,而是基于身体的感知运动经验,在心智中进行模拟。当前的多模态大语言模型(MLLM)能够将语言推理与视觉、听觉等信息进行关联处理,但其推理过程通常发生在语言表示空间。这种处理方式与人类基于具身体验的、丰富的、有意识的思考有着本质区别。
最近也有一些工作尝试进行多模态推理,让模型能够“边看边想”;但这些方法仍属于比较初步的探索。因此,从具身认知的角度看,MLLM 的思考能力与人类仍有显著差距。
LLM 既不是基于形式逻辑规则(如命题逻辑)进行推理,也不是按照计算规则进行算术运算。它可以通过其生成机制模拟,呈现出一定的启发式推理和计算能力,但在处理复杂问题时,由于缺乏严谨性,容易产生错误。因此,LLM 在这方面存在局限性。
LLM 是否有创造力,还是一个开放式的问题,这也依赖于对创造力的定义。创新分为渐进式创新和颠覆性创新。通过观察可以发现,LLM 应该也具备渐进式创新能力。而颠覆式创新,如相对论理论的建立,LLM 是否能够做到,目前尚无定论。Ilya Sutskever 认为 LLM 可以做插值(interpolation),但外推(extrapolation)是开放问题,这也是类似的想法。
LLM 并不存在对应人的意识机制,虽然我们会感到与 LLM 对话时有与真人交互的感觉。意识是指人的心智中感受到的对内部身体和外部环境的知觉。意识是清醒时人脑处于的一种状态,与其相对的其他状态是深度睡眠、昏迷、死亡。意识是主观的,是每个人以自我为中心的精神活动,对我们每个人来说自己的意识是持续的、一贯的、稳定的。同时,意识又是客观的,它对应着人脑神经系统的高层次处理,由人脑神经系统的低层次处理支撑。全局工作空间理论(Global Workspace Theory)认为意识是脑内信息的全局广播。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35156

