DeepSeek开源条件记忆模块：让Transformer告别“苦力活”，27B模型性能碾压MoE

DeepSeek为Transformer引入“条件记忆”模块

DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制，旨在弥补其原生缺乏高效知识检索能力的短板。

研究团队在论文结论中明确指出：条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。

该研究由梁文锋署名，并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。

论文不仅提出了“条件记忆”这一新范式，还给出了其具体实现方案——Engram模块。实验表明，配备Engram的27B参数模型性能超越了同规模的纯混合专家模型，并意外地提升了大模型的推理效率：原本需要6层注意力才能完成的简单识别任务，现在仅需1-2层即可完成，从而释放出更多计算资源用于处理复杂的推理任务。

条件记忆的核心原理颇为“复古”：它不依赖复杂计算，而是回归“查表”思路，借鉴了传统的N-gram方法。其核心是为模型提供一个巨大的词表，专门存储固定的实体名称和短短语。无论词表多大，信息检索都能在O(1)的时间复杂度内完成。

关键在于，DeepSeek如何解决传统N-gram模型面临的两个经典难题——存储空间爆炸与词语多义性，并将其与现代Transformer架构有效融合？

注意力机制不应被浪费在“苦力活”上

研究团队的核心洞察是：语言建模任务本质包含两种性质迥异的工作——需要深度动态计算的组合推理与对静态知识的检索。

问题在于，现有Transformer架构缺乏原生的知识查找机制。当模型需要识别一个实体时，它不得不消耗数层注意力与前馈网络，逐层拼凑特征才能完成。论文引用了一个具体案例：识别“Diana, Princess of Wales”。

模型需要经过整整6层处理：前几层还在解析“Wales是英国的一个地区”、“Princess of Wales是某种头衔”等中间状态，直到最后才“回想”起这是指戴安娜王妃。

这本质上是在用昂贵的运行时计算来重建一个静态的查找表。那些本可用于高层推理的网络深度，被浪费在了识别基础概念这类“苦力活”上。

回归查表：当N-gram遇见Transformer

Engram的设计思路直接明了：既然经典的N-gram模型能以O(1)复杂度捕获局部依赖，何不将这一能力直接嵌入Transformer？

具体实现上，团队在原有Transformer层之间插入Engram模块。每个位置的输入会触发一次哈希查找：将当前token与前几个token组成的N-gram映射到一个巨大的嵌入表中，直接取出对应的向量。

为处理哈希冲突与多义性问题，团队引入了上下文感知的门控机制。该机制以当前的隐藏状态作为Query，以检索到的记忆作为Key和Value，计算出一个介于0到1之间的标量门控值。如果检索到的内容与当前上下文不匹配，门控值趋近于零，从而自动屏蔽噪声。

在下图中，颜色越深表示Engram越倾向于判断当前文本片段为“固定静态模式”，从而调用记忆库中的对应信息；颜色越浅则表示文本越动态灵活，主要依靠模型的注意力机制处理。例如，单独的“张”是一个常见姓氏，但“张仲景”三个字组合在一起就是一个固定的历史人物实体。

接下来，团队着手解决传统N-gram模型的两个痛点：
1. 语义重复：同一词语的不同形式被当作不同token，浪费存储空间。
2. 存储爆炸：所有可能的N-gram组合数量过于庞大，直接存储不可行。

DeepSeek团队首先压缩了分词器，将语义相同但形式不同的token归为一类，使128k词表的有效规模减少了23%，提升了查找效率。

随后，他们采用多个哈希函数将N-gram映射到固定大小的嵌入表索引。这既解决了存储爆炸问题（无论多少种N-gram，都映射到固定大小的表），又减少了查找冲突（为每种N-gram阶数配备K个不同的哈希头，每个头对应独立的嵌入表）。最终，将所有检索到的嵌入向量拼接，形成供后续模块使用的“记忆向量”eₜ。

U型曲线：MoE与记忆模块的最优配比

论文最核心的部分是对“稀疏性分配问题”的系统研究。团队设计了一个严格的实验框架：在固定总参数量和每token激活参数量的前提下，于MoE专家和Engram记忆之间重新分配“闲置参数”预算。

当分配比例ρ从100%（纯MoE）逐步降至40%时，实验结果描绘出一条清晰的U型曲线：

纯MoE并非最优解。当将大约20%到25%的稀疏参数预算分配给Engram记忆时，模型在验证集上的损失达到最低点。在100亿参数规模下，此最优配置比纯MoE基线的损失降低了0.0139。更重要的是，这个最优分配点在不同计算预算下都相当稳定，大约在ρ=75%到80%之间。

团队解释了U型曲线两端的含义：
* MoE主导时：模型缺乏对静态模式的专用记忆，被迫低效地通过网络深度和大量计算来重建知识。
* Engram主导时：模型丢失了条件计算能力，在需要动态推理的任务上表现下降。

结论是：记忆无法替代计算，计算也无法高效模拟记忆，二者需要协同工作。

27B规模验证：推理能力提升超预期

依据U型曲线的指导，团队将Engram扩展到更大参数规模进行验证，并与纯MoE模型及纯密集模型对比。所有模型训练条件一致，差异仅在于“稀疏能力分配”：
* Dense-4B：纯密集模型。
* MoE-27B：纯混合专家模型。
* Engram-27B：MoE+Engram混合模型，将5.7B稀疏参数分配给Engram。
* Engram-40B：进一步扩展Engram模块，记忆参数增至18.5B。

结果，与MoE-27B相比，Engram-27B的表现超出预期：
* 知识密集型任务：如MMLU提升3分，CMMLU提升4.0分，符合预期。
* 通用推理与代码数学领域：提升幅度意外显著，如BBH大幅提升5.0分，HumanEval提升3.0分，MATH提升2.4分。

团队通过LogitLens和CKA分析揭示了原因。Engram让模型的早期层无需再做特征组合的“苦力活”，其预测收敛速度明显更快。CKA相似度矩阵显示，Engram-27B第5层的表征，与MoE基线第12层的表征最为相似。这意味着Engram实质上“加深”了网络的有效深度，省下来的层数被用于处理更复杂的推理任务。