DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

随着大型语言模型(LLMs)在文本生成、逻辑推理、代码编程等复杂任务中展现出接近甚至超越人类的表现,AI研究社区正面临一个日益紧迫的挑战:我们如何理解这些“黑箱”模型内部究竟发生了什么?模型的输出决策究竟是基于哪些输入信息、经过哪些内部组件的加工而形成的?这一挑战,即AI模型的可解释性问题,已成为制约LLMs在医疗、金融、司法等高风险领域深度应用的关键瓶颈。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

当前,针对Transformer架构的可解释性研究,特别是特征归因(Feature Attribution)领域,已涌现出多种方法,但普遍存在三大核心痛点:

1. **计算代价高昂**:许多方法,如基于噪声消融或激活修补的技术,需要对模型进行大量前向或反向传播计算,分析一个复杂决策的成本极高,难以规模化应用。

2. **分析粒度与视角割裂**:现有方法往往“各自为政”。有的专注于将输出归因到输入token(Token-Level),有的致力于分析特定注意力头(Attention Head)的功能,还有的研究MLP神经元(Neuron-Level)或残差流中的语义子空间(Subspace-Level)。这些不同层面的分析缺乏一个统一的数学框架,导致研究者难以获得连贯、一致的全景视图,无法有效追踪信息从输入到输出、跨越不同组件和表示空间的完整流动路径。

3. **理论完备性与实践有效性不足**:基于梯度的方法(如积分梯度)在理论上存在饱和性问题;而基于模型近似(如线性探针)的方法可能因近似误差而损害归因结果的可信度(非保守性),无法保证归因结果真实反映了模型内部的因果机制。

针对上述系统性难题,由清华大学与上海人工智能实验室的研究团队联合提出的 **DePass(Decomposed Forward Pass)框架**,带来了一场范式革新。其核心创新在于一个既简单又深刻的洞见:**将Transformer前向传播过程中每一层的隐藏状态(Hidden State),在数学上无损地分解为多个可加的“组件状态”**。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

**DePass的工作原理:一次前向传播,多重无损分解**

传统的前向传播将输入序列的嵌入向量,通过层层Transformer模块(注意力层+前馈网络层)非线性地变换为最终输出。DePass的关键在于,它允许研究者在传播开始前,依据研究目标自定义初始的分解。例如,可以将初始隐藏状态按输入token分解(每个token对应一个组件),或按预设的语义方向(子空间)分解。

随后,DePass执行一次特殊的“分解式前向传播”。在这个过程中,它巧妙地**冻结了注意力机制中的注意力权重(Attention Scores)和MLP层中神经元的激活值**。这一冻结操作至关重要,它确保了信息在不同分解组件间流动的规则是线性且可追溯的。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

* **在注意力模块中**:冻结的注意力权重决定了每个位置应该“关注”其他位置哪些组件的混合信息。DePass将各个组件的隐藏状态分别进行线性变换(K, Q, V投影),然后严格按照固定的注意力权重进行加权求和,并将结果累加到目标位置对应的组件上。这实现了信息跨位置、跨组件的精确路由与分配。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

* **在MLP模块中**:DePass将MLP层视为一个以神经元为单位的“键值存储库”。每个神经元的激活(作为“键”)由所有组件共同贡献触发。DePass通过计算每个组件对激活该神经元的贡献比例,将神经元输出的“值”按比例划分回各个组件。公式中的

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

即代表神经元k的输出值分配到组件m上的权重,实现了MLP层非线性计算结果的线性化、可加性分解。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

通过这种贯穿所有层的、基于固定激活的组件状态传播,DePass在一次前向传播中,就同步完成了从输入到输出、跨越所有自定义组件的无损信息流追踪。

**DePass的实证威力:多层级、高保真的归因分析**

研究团队通过一系列严谨实验,充分验证了DePass框架的统一性和有效性。

**1. Token级归因:精准定位决策核心证据**

在将模型输出归因到输入token的任务中,DePass展现了卓越的精确性。在“破坏性实验”(Disrupt-top)中,移除DePass判定为最重要的少量tokens,会导致模型正确预测的概率急剧下降;而在“恢复性实验”(Recover-top)中,仅保留这些关键tokens,模型性能就能得到高度恢复。这证明DePass捕捉到的是真正驱动模型决策的因果性证据,而非相关性信号。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

**2. 子空间级归因:追溯语义信号的源头**

DePass的强大之处在于能跨层级关联。研究者可以先用稀疏自编码器(SAE)等方法,从模型残差流中识别出代表特定语义概念(如“真实性”、“毒性”)的子空间方向。然后,利用DePass将这些子空间在最终层的激活,反向归因到最初的输入tokens上。

在一个关键实验中,团队识别出与“虚假信息”相关的子空间,并用DePass找到了激活该子空间的具体输入词。通过定向遮罩这些词,模型在CounterFact事实性评测数据集上的准确率从约10%大幅提升至40%以上,效果显著优于传统的基于线性探针的遮罩方法。这为模型的安全对齐和可控性提供了强有力的新工具。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

**3. 模型组件级归因:量化注意力头与神经元的功能贡献**

DePass能直接、定量地评估每个注意力头或MLP神经元对特定预测的实际贡献。实验表明,基于DePass重要性分数进行组件遮罩(Top-k Masking),比基于梯度或原始激活值的方法能更有效地降低模型性能;反之,保留最不重要的组件(Bottom-k Masking)时,模型性能保持得更好。在IOI(间接对象识别)和CounterFact等需要复杂推理的任务上,DePass的归因指标在敏感性、完备性和因果性上均显著超越了AtP、Norm等主流方法。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

**4. 探索子空间交互:解码语言与语义的分离**

DePass还能用于研究不同语义子空间之间的相互作用。例如,研究者训练了一个语言分类器,将其权重方向定义为“语言子空间”,并将中间层隐藏状态分解到该子空间及其正交补空间(可视为“语义子空间”)。让两部分状态独立传播至输出层并分别解码。

可视化分析(如t-SNE)显示,来自“语言子空间”的激活清晰地按照语种(英语、法语、德语)形成聚类;而“语义子空间”的激活则承载了与语言无关的语义内容。这生动演示了Transformer内部如何自发地组织信息,也为多语言模型的研究提供了新视角。

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

**结论与展望**

DePass框架的提出,为LLM可解释性研究树立了一个新的里程碑。它通过一个简洁而统一的数学原理——基于固定激活的隐藏状态分解与传播——成功弥合了token级、组件级和子空间级归因之间的鸿沟,提供了一种高效、无损、高保真的分析工具。这不仅有助于我们更深入地理解Transformer的工作原理,识别模型偏见和错误模式的根源,更能直接赋能模型编辑、安全对齐、知识溯源等下游应用,推动大模型朝着更可靠、更可控、更可信的方向发展。未来,如何将DePass与更复杂的模型行为(如思维链推理)、更大的模型规模相结合,将是极具价值的研究方向。

— 图片补充 —

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5849

(0)
上一篇 2025年12月1日 上午11:36
下一篇 2025年12月1日 上午11:49

相关推荐

  • VisPlay:突破视觉语言模型的数据困境,开启自进化强化学习新纪元

    在Vision-Language Model(VLM)领域,提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制,这不仅带来高昂的经济成本和时间成本,更关键的是难以实现规模化扩展。随着模型参数量的指数级增长,人工标注的速度已远远跟不上模型演化的需求,形成了制约VLM发展的“数据困境”。 最新研究成果VisPlay首次提出了一种…

    2025年12月1日
    400
  • ChatGPT广告功能代码泄露:OpenAI商业化转型的深度剖析与行业影响

    近日,ChatGPT安卓测试版代码泄露事件揭示了OpenAI正在内部测试广告功能的重大动向。软件工程师Tibor Blaho在分析应用代码时,发现了“搜索广告”“搜索广告轮播”“集市内容”等关键字符串,这标志着OpenAI可能正在探索将广告整合到其对话式AI产品中。尽管这些代码不代表功能即将上线,但通常预示着公司正在进行广告形式和投放位置的内部测试,为未来的…

    2025年11月30日
    200
  • 从生物进化到AI演进:开源加速与非线性跃迁的深层逻辑

    在科技发展的宏大叙事中,生物进化与人工智能的演进轨迹呈现出令人惊异的相似性。这种相似性不仅体现在表面模式上,更深入到两者共享的底层逻辑——试错、选择与适应性突破。本文将以Daniel Povey在MEET2026智能未来大会上的核心观点为线索,深入剖析AI发展的进化隐喻,探讨开源生态的关键作用,并展望下一代架构的探索路径。 **一、进化逻辑的深层映射:从生物…

    4天前
    400
  • 具身智能新星Sunday:斯坦福双雄的全栈机器人革命与11月19日产品悬念

    近日,具身智能领域迎来重磅消息:斯坦福大学两位顶尖研究者赵子豪(Tony Zhao)与迟宬(Cheng Chi)联合创办的机器人公司Sunday正式浮出水面,并宣布将于11月19日发布首款产品。这一消息迅速引发科技界关注,不仅因为两位创始人在学术与工业界的显赫背景,更因他们宣称要打造“像Macintosh、iPhone、ChatGPT一样的划时代产品”,甚至…

    2025年11月17日
    200
  • 苹果AI转型关键期:库克时代落幕与硬件专家John Ternus的接班之路

    随着AI技术浪潮席卷全球科技产业,苹果公司正面临自乔布斯时代以来最严峻的战略转型挑战。近期《金融时报》爆出重磅消息:掌舵苹果14年的CEO蒂姆·库克可能最早于明年退休,而现任硬件工程高级副总裁John Ternus被视为最有可能的接班人。这一人事变动传闻不仅关乎苹果领导层的更迭,更折射出这家科技巨头在AI时代的战略焦虑与转型阵痛。 苹果的CEO接班计划并非突…

    2025年11月16日
    100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注