DePass：统一特征归因框架，开启Transformer内部信息流无损分解新纪元

随着大型语言模型（LLMs）在文本生成、逻辑推理、代码编程等复杂任务中展现出接近甚至超越人类的表现，AI研究社区正面临一个日益紧迫的挑战：我们如何理解这些“黑箱”模型内部究竟发生了什么？模型的输出决策究竟是基于哪些输入信息、经过哪些内部组件的加工而形成的？这一挑战，即AI模型的可解释性问题，已成为制约LLMs在医疗、金融、司法等高风险领域深度应用的关键瓶颈。

当前，针对Transformer架构的可解释性研究，特别是特征归因（Feature Attribution）领域，已涌现出多种方法，但普遍存在三大核心痛点：

1. **计算代价高昂**：许多方法，如基于噪声消融或激活修补的技术，需要对模型进行大量前向或反向传播计算，分析一个复杂决策的成本极高，难以规模化应用。

2. **分析粒度与视角割裂**：现有方法往往“各自为政”。有的专注于将输出归因到输入token（Token-Level），有的致力于分析特定注意力头（Attention Head）的功能，还有的研究MLP神经元（Neuron-Level）或残差流中的语义子空间（Subspace-Level）。这些不同层面的分析缺乏一个统一的数学框架，导致研究者难以获得连贯、一致的全景视图，无法有效追踪信息从输入到输出、跨越不同组件和表示空间的完整流动路径。

3. **理论完备性与实践有效性不足**：基于梯度的方法（如积分梯度）在理论上存在饱和性问题；而基于模型近似（如线性探针）的方法可能因近似误差而损害归因结果的可信度（非保守性），无法保证归因结果真实反映了模型内部的因果机制。

针对上述系统性难题，由清华大学与上海人工智能实验室的研究团队联合提出的 **DePass（Decomposed Forward Pass）框架**，带来了一场范式革新。其核心创新在于一个既简单又深刻的洞见：**将Transformer前向传播过程中每一层的隐藏状态（Hidden State），在数学上无损地分解为多个可加的“组件状态”**。

**DePass的工作原理：一次前向传播，多重无损分解**

传统的前向传播将输入序列的嵌入向量，通过层层Transformer模块（注意力层+前馈网络层）非线性地变换为最终输出。DePass的关键在于，它允许研究者在传播开始前，依据研究目标自定义初始的分解。例如，可以将初始隐藏状态按输入token分解（每个token对应一个组件），或按预设的语义方向（子空间）分解。

随后，DePass执行一次特殊的“分解式前向传播”。在这个过程中，它巧妙地**冻结了注意力机制中的注意力权重（Attention Scores）和MLP层中神经元的激活值**。这一冻结操作至关重要，它确保了信息在不同分解组件间流动的规则是线性且可追溯的。

* **在注意力模块中**：冻结的注意力权重决定了每个位置应该“关注”其他位置哪些组件的混合信息。DePass将各个组件的隐藏状态分别进行线性变换（K, Q, V投影），然后严格按照固定的注意力权重进行加权求和，并将结果累加到目标位置对应的组件上。这实现了信息跨位置、跨组件的精确路由与分配。

* **在MLP模块中**：DePass将MLP层视为一个以神经元为单位的“键值存储库”。每个神经元的激活（作为“键”）由所有组件共同贡献触发。DePass通过计算每个组件对激活该神经元的贡献比例，将神经元输出的“值”按比例划分回各个组件。公式中的

即代表神经元k的输出值分配到组件m上的权重，实现了MLP层非线性计算结果的线性化、可加性分解。

通过这种贯穿所有层的、基于固定激活的组件状态传播，DePass在一次前向传播中，就同步完成了从输入到输出、跨越所有自定义组件的无损信息流追踪。

**DePass的实证威力：多层级、高保真的归因分析**

研究团队通过一系列严谨实验，充分验证了DePass框架的统一性和有效性。

**1. Token级归因：精准定位决策核心证据**

在将模型输出归因到输入token的任务中，DePass展现了卓越的精确性。在“破坏性实验”（Disrupt-top）中，移除DePass判定为最重要的少量tokens，会导致模型正确预测的概率急剧下降；而在“恢复性实验”（Recover-top）中，仅保留这些关键tokens，模型性能就能得到高度恢复。这证明DePass捕捉到的是真正驱动模型决策的因果性证据，而非相关性信号。

**2. 子空间级归因：追溯语义信号的源头**

DePass的强大之处在于能跨层级关联。研究者可以先用稀疏自编码器（SAE）等方法，从模型残差流中识别出代表特定语义概念（如“真实性”、“毒性”）的子空间方向。然后，利用DePass将这些子空间在最终层的激活，反向归因到最初的输入tokens上。

在一个关键实验中，团队识别出与“虚假信息”相关的子空间，并用DePass找到了激活该子空间的具体输入词。通过定向遮罩这些词，模型在CounterFact事实性评测数据集上的准确率从约10%大幅提升至40%以上，效果显著优于传统的基于线性探针的遮罩方法。这为模型的安全对齐和可控性提供了强有力的新工具。

**3. 模型组件级归因：量化注意力头与神经元的功能贡献**

DePass能直接、定量地评估每个注意力头或MLP神经元对特定预测的实际贡献。实验表明，基于DePass重要性分数进行组件遮罩（Top-k Masking），比基于梯度或原始激活值的方法能更有效地降低模型性能；反之，保留最不重要的组件（Bottom-k Masking）时，模型性能保持得更好。在IOI（间接对象识别）和CounterFact等需要复杂推理的任务上，DePass的归因指标在敏感性、完备性和因果性上均显著超越了AtP、Norm等主流方法。

**4. 探索子空间交互：解码语言与语义的分离**

DePass还能用于研究不同语义子空间之间的相互作用。例如，研究者训练了一个语言分类器，将其权重方向定义为“语言子空间”，并将中间层隐藏状态分解到该子空间及其正交补空间（可视为“语义子空间”）。让两部分状态独立传播至输出层并分别解码。

可视化分析（如t-SNE）显示，来自“语言子空间”的激活清晰地按照语种（英语、法语、德语）形成聚类；而“语义子空间”的激活则承载了与语言无关的语义内容。这生动演示了Transformer内部如何自发地组织信息，也为多语言模型的研究提供了新视角。

**结论与展望**

DePass框架的提出，为LLM可解释性研究树立了一个新的里程碑。它通过一个简洁而统一的数学原理——基于固定激活的隐藏状态分解与传播——成功弥合了token级、组件级和子空间级归因之间的鸿沟，提供了一种高效、无损、高保真的分析工具。这不仅有助于我们更深入地理解Transformer的工作原理，识别模型偏见和错误模式的根源，更能直接赋能模型编辑、安全对齐、知识溯源等下游应用，推动大模型朝着更可靠、更可控、更可信的方向发展。未来，如何将DePass与更复杂的模型行为（如思维链推理）、更大的模型规模相结合，将是极具价值的研究方向。

— 图片补充 —