随着大型语言模型(LLMs)在文本生成、逻辑推理、代码编程等复杂任务中展现出接近甚至超越人类的表现,AI研究社区正面临一个日益紧迫的挑战:我们如何理解这些“黑箱”模型内部究竟发生了什么?模型的输出决策究竟是基于哪些输入信息、经过哪些内部组件的加工而形成的?这一挑战,即AI模型的可解释性问题,已成为制约LLMs在医疗、金融、司法等高风险领域深度应用的关键瓶颈。

当前,针对Transformer架构的可解释性研究,特别是特征归因(Feature Attribution)领域,已涌现出多种方法,但普遍存在三大核心痛点:
1. **计算代价高昂**:许多方法,如基于噪声消融或激活修补的技术,需要对模型进行大量前向或反向传播计算,分析一个复杂决策的成本极高,难以规模化应用。
2. **分析粒度与视角割裂**:现有方法往往“各自为政”。有的专注于将输出归因到输入token(Token-Level),有的致力于分析特定注意力头(Attention Head)的功能,还有的研究MLP神经元(Neuron-Level)或残差流中的语义子空间(Subspace-Level)。这些不同层面的分析缺乏一个统一的数学框架,导致研究者难以获得连贯、一致的全景视图,无法有效追踪信息从输入到输出、跨越不同组件和表示空间的完整流动路径。
3. **理论完备性与实践有效性不足**:基于梯度的方法(如积分梯度)在理论上存在饱和性问题;而基于模型近似(如线性探针)的方法可能因近似误差而损害归因结果的可信度(非保守性),无法保证归因结果真实反映了模型内部的因果机制。
针对上述系统性难题,由清华大学与上海人工智能实验室的研究团队联合提出的 **DePass(Decomposed Forward Pass)框架**,带来了一场范式革新。其核心创新在于一个既简单又深刻的洞见:**将Transformer前向传播过程中每一层的隐藏状态(Hidden State),在数学上无损地分解为多个可加的“组件状态”**。

**DePass的工作原理:一次前向传播,多重无损分解**
传统的前向传播将输入序列的嵌入向量,通过层层Transformer模块(注意力层+前馈网络层)非线性地变换为最终输出。DePass的关键在于,它允许研究者在传播开始前,依据研究目标自定义初始的分解。例如,可以将初始隐藏状态按输入token分解(每个token对应一个组件),或按预设的语义方向(子空间)分解。
随后,DePass执行一次特殊的“分解式前向传播”。在这个过程中,它巧妙地**冻结了注意力机制中的注意力权重(Attention Scores)和MLP层中神经元的激活值**。这一冻结操作至关重要,它确保了信息在不同分解组件间流动的规则是线性且可追溯的。

* **在注意力模块中**:冻结的注意力权重决定了每个位置应该“关注”其他位置哪些组件的混合信息。DePass将各个组件的隐藏状态分别进行线性变换(K, Q, V投影),然后严格按照固定的注意力权重进行加权求和,并将结果累加到目标位置对应的组件上。这实现了信息跨位置、跨组件的精确路由与分配。


* **在MLP模块中**:DePass将MLP层视为一个以神经元为单位的“键值存储库”。每个神经元的激活(作为“键”)由所有组件共同贡献触发。DePass通过计算每个组件对激活该神经元的贡献比例,将神经元输出的“值”按比例划分回各个组件。公式中的

即代表神经元k的输出值分配到组件m上的权重,实现了MLP层非线性计算结果的线性化、可加性分解。

通过这种贯穿所有层的、基于固定激活的组件状态传播,DePass在一次前向传播中,就同步完成了从输入到输出、跨越所有自定义组件的无损信息流追踪。
**DePass的实证威力:多层级、高保真的归因分析**
研究团队通过一系列严谨实验,充分验证了DePass框架的统一性和有效性。
**1. Token级归因:精准定位决策核心证据**
在将模型输出归因到输入token的任务中,DePass展现了卓越的精确性。在“破坏性实验”(Disrupt-top)中,移除DePass判定为最重要的少量tokens,会导致模型正确预测的概率急剧下降;而在“恢复性实验”(Recover-top)中,仅保留这些关键tokens,模型性能就能得到高度恢复。这证明DePass捕捉到的是真正驱动模型决策的因果性证据,而非相关性信号。

**2. 子空间级归因:追溯语义信号的源头**
DePass的强大之处在于能跨层级关联。研究者可以先用稀疏自编码器(SAE)等方法,从模型残差流中识别出代表特定语义概念(如“真实性”、“毒性”)的子空间方向。然后,利用DePass将这些子空间在最终层的激活,反向归因到最初的输入tokens上。
在一个关键实验中,团队识别出与“虚假信息”相关的子空间,并用DePass找到了激活该子空间的具体输入词。通过定向遮罩这些词,模型在CounterFact事实性评测数据集上的准确率从约10%大幅提升至40%以上,效果显著优于传统的基于线性探针的遮罩方法。这为模型的安全对齐和可控性提供了强有力的新工具。

**3. 模型组件级归因:量化注意力头与神经元的功能贡献**
DePass能直接、定量地评估每个注意力头或MLP神经元对特定预测的实际贡献。实验表明,基于DePass重要性分数进行组件遮罩(Top-k Masking),比基于梯度或原始激活值的方法能更有效地降低模型性能;反之,保留最不重要的组件(Bottom-k Masking)时,模型性能保持得更好。在IOI(间接对象识别)和CounterFact等需要复杂推理的任务上,DePass的归因指标在敏感性、完备性和因果性上均显著超越了AtP、Norm等主流方法。

**4. 探索子空间交互:解码语言与语义的分离**
DePass还能用于研究不同语义子空间之间的相互作用。例如,研究者训练了一个语言分类器,将其权重方向定义为“语言子空间”,并将中间层隐藏状态分解到该子空间及其正交补空间(可视为“语义子空间”)。让两部分状态独立传播至输出层并分别解码。
可视化分析(如t-SNE)显示,来自“语言子空间”的激活清晰地按照语种(英语、法语、德语)形成聚类;而“语义子空间”的激活则承载了与语言无关的语义内容。这生动演示了Transformer内部如何自发地组织信息,也为多语言模型的研究提供了新视角。

**结论与展望**
DePass框架的提出,为LLM可解释性研究树立了一个新的里程碑。它通过一个简洁而统一的数学原理——基于固定激活的隐藏状态分解与传播——成功弥合了token级、组件级和子空间级归因之间的鸿沟,提供了一种高效、无损、高保真的分析工具。这不仅有助于我们更深入地理解Transformer的工作原理,识别模型偏见和错误模式的根源,更能直接赋能模型编辑、安全对齐、知识溯源等下游应用,推动大模型朝着更可靠、更可控、更可信的方向发展。未来,如何将DePass与更复杂的模型行为(如思维链推理)、更大的模型规模相结合,将是极具价值的研究方向。
— 图片补充 —


关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5849
