DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

这一记忆架构有望成为新的Scaling路径。

智东西1月13日报道，昨晚，DeepSeek再次开源，并发布一篇新论文。此次，他们提出了一种全新的“条件记忆”机制——Engram，旨在让MoE模型在保持巨量参数的同时，更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。

Engram架构的核心优势在于以更低成本实现更优性能。在训练计算量较MoE减少18%的情况下，于32768个token的长上下文任务中，Engram在RULER基准测试中反超了同参数量的MoE模型。其浅层部署的记忆模块接管了局部依赖与静态知识存储，为注意力机制腾出容量以专注全局推理。在1000亿参数记忆表卸载后，H800推理吞吐量降幅不足3%。

DeepSeek还观察到，增加记忆槽位数量能持续、稳定地降低验证损失。这意味着Engram提供了一个可预测的Scaling新手段：增大记忆容量持续带来收益，而无需增加计算量。

那么，这种效果究竟是如何实现的？当前的MoE模型虽然在计算层面实现了稀疏化，但其处理信息的方式仍然低效：对于某些常见的事实性内容，如固定名称、公式或表达，模型仍需重复计算，耗时费力。DeepSeek的做法是，将这些“固定知识”提前整理成一个可快速查询的表格，从而将更多计算资源集中于真正需要深度思考的任务上，如复杂推理或长文本理解。

值得一提的是，论文的第一作者Xin Cheng（程信）目前在北京大学智能学院攻读博士学位，主要研究方向为大模型的高效参数化方法与机制。他同时也在DeepSeek工作，参与了R1、V3等研究项目。

在论文摘要中，DeepSeek提出，条件记忆将成为下一代稀疏模型中不可或缺的建模原语。这或许意味着DeepSeek-V4有望整合条件记忆机制，实现知识高效检索与推理能力的飞跃。

论文链接： https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
项目链接： https://github.com/deepseek-ai/Engram

01. Transformer缺乏知识检索机制，经典𝑁-gram架构提供启发

在正式介绍新型记忆机制前，DeepSeek团队首先提出了一项重要观察。稀疏性已成为智能系统的核心设计原则，在大模型领域，其具体实现便是MoE（混合专家模型）。然而，现有的标准Transformer本质上缺乏真正的知识检索机制，导致大模型不得不在早期层中通过昂贵计算来“重建”静态知识，浪费了宝贵的模型深度。因此，DeepSeek认为有必要提出第二个与条件计算互补的稀疏维度：条件记忆。

条件记忆依赖稀疏的查找操作，为固定知识检索静态嵌入表示，适合命名实体、固定表达等静态且高度模式化的语言表示。DeepSeek团队向经典的𝑁-gram结构引入了现代化的条件记忆模块，包括分词器压缩、多头哈希、上下文化门控以及多分支集成等，最终提出了Engram。

下图展示了Engram的基本架构。通俗地说，Engram是为Transformer增加一个外接记忆库，将当前token附近的一小段内容，以快速、省参数的方式，在一个超大的静态记忆表中查询对应内容。

02. 多管齐下打造新型记忆机制，天然支持参数存储与计算资源解耦

这个记忆库是如何具体实现的？

首先，DeepSeek团队对分词器进行了压缩。普通分词器会将“Apple”、“apple”、“APPLE”等视为完全不同的词元，但对人类而言其语义差别不大。Engram先将词表清洗，统一转为小写，并进行Unicode规范化（NFKC）。最终，一个原本128k的词表实际仅保留了77%，有23%的token ID被合并。这显著提升了N-gram记忆的密度。

然而，直接对所有𝑁-gram进行建模是不可行的，参数会指数级增长。DeepSeek团队引入了多头哈希记忆，在固定参数预算下近似大规模𝑁-gram表，以降低哈希碰撞引入的语义噪声。

上述检索机制提供的记忆是静态的，缺乏上下文适应性，易受歧义与冲突的影响。这一问题可通过上下文感知门控来解决。为进一步扩大感受野并增强非线性建模能力，模型还引入了一个深度可分离因果卷积。

DeepSeek团队采用多分支架构作为默认主干网络，而非标准的单流残差连接（这是何恺明此前的研究成果）。多分支架构将残差流扩展为M个并行分支，但共享记忆表和输出映射。这样设计的好处是，它可以一次性通过矩阵乘法完成多条分支的计算，GPU利用效率极高。

Engram的核心优势在于，记忆检索完全依赖输入token，而非运行时的隐藏状态。这种确定性机制实现了参数存储与计算资源的解耦，支持训练和推理阶段采取专门的优化策略：

▲ Engram训练和推理阶段可采用不同优化策略

训练优化：通过将超大嵌入表分片至多张GPU，利用All-to-All通信按需收集对应行，使总记忆容量随GPU数量线性扩展。
推理优化：由于可提前确定待查询记忆，系统可从主机内存异步预取，同时在前几层计算期间隐藏通信延迟，实现预取与计算的重叠，避免GPU停顿。
硬件-算法协同设计：Engram在模型中的放置位置需平衡建模性能与系统延迟。较早引入有助于局部模式重建，较深放置则延长延迟隐藏窗口，需兼顾二者优化。
层次化存储：基于自然语言𝑁-gram的Zipf分布特性，可采用多级缓存策略，高频嵌入存放于GPU HBM或主机DRAM，低频嵌入置于SSD。这使Engram能扩展至超大规模记忆，同时保持低延迟与高效率。

03. 两个模块资源二八分成，互补性获验证

接下来，DeepSeek团队研究了另一个关键问题——条件计算（MoE）和条件记忆（Engram）这两种稀疏模式应如何配合，才能发挥最佳效果？

实验发现，在有限资源下，将所有空闲参数都分配给MoE（即纯MoE模型）并非最优解。最佳效果出现在将大约75%-80%的资源分配给MoE，其余20%-25%分配给Engram时。 如果完全由MoE主导，模型缺乏静态模式的专用记忆，只能依靠计算反复重建，效率低下。而如果完全由Engram主导，模型则失去了动态计算能力，无法应对需要上下文理解的任务。这条U型曲线验证了两个模块的结构互补性：

前述实验探索的是在固定参数预算下的分配优化。那么，如果大幅度扩展记忆容量，会发生什么？实验在MoE主干网络不变的情况下，附加Engram记忆表。结果显示，增加记忆槽位数量能持续、稳定地降低验证损失。在探索范围内，曲线严格遵循幂律（在对数空间呈线性）。DeepSeek认为，这意味着Engram提供了一个可预测的Scaling新手段：增大记忆容量持续带来收益，而无需增加计算量。

同时，与其它仅做简单平均的记忆方法（如OverEncoding）相比，Engram的Scaling潜力更大，性能提升更明显。这些结果验证了条件记忆作为稀疏容量的独立可扩展维度，与MoE的条件计算形成了有效互补。

04. 架构训练计算量少18%，性能反超MoE

验证了架构与技术路径的可行性后，DeepSeek团队的下一步便是进行大规模扩展，以验证这种方式在实际语言模型预训练中的有效性。

具体而言，DeepSeek训练了四个模型：Dense-4B、MoE-27B、Engram-27B、Engram-40B。训练时的语料库、分词器均保持一致，后两个模型则引入了Engram机制，用以研究在模型参数量不变以及Engram进一步扩展后的特性。

实验结果显示，在相同算力与参数量的条件下，Engram-27B能够在MoE-27B的基线上取得持续的性能提升，且这些增益并不仅限于知识密集型任务。在通用推理、代码与数学推理任务上，提升更为显著。

这些结果印证了DeepSeek的假设：引入专门的知识查找原语能够提升模型的表征效率，其效果超越了仅将稀疏计算预算用于条件计算的传统方法。

将模型扩展至Engram-40B进一步降低了预训练损失，并在大多数基准测试中提升了性能。虽然它尚未在所有任务上严格超越Engram-27B，但这很可能是训练尚未充分收敛的结果。DeepSeek团队观察到，在训练结束时，Engram-40B与基线模型之间的训练损失差距仍在扩大，这表明在当前训练规模下，扩展的记忆容量尚未完全发挥潜力。

随后，团队以MoE-27B与Engram-27B作为对照组，均使用约300亿token（5000步） 的高质量长上下文数据进行微调，并采用DeepSeek-V3中的YaRN技术将模型上下文窗口扩展至32768个token。实验表明，由于Engram模块接管了局部依赖建模，它为模型的注意力机制释放了容量，使其能更专注于处理全局上下文。因此，Engram架构在处理超长文本和长程推理任务上表现优于传统架构，具体体现在：
* 架构优势：在排除基础模型能力差异后，Engram-27B依然显著优于MoE-27B。
* 长程依赖处理：在复杂的RULER检索基准测试中，Engram展现出更强的长程依赖处理能力。例如在多查询Multi-Query NIAH任务中，其准确率大幅领先。

在计算效率方面，Engram-27B仅使用82% 的预训练计算量，其表现便能与完全训练的MoE-27B基线模型持平，甚至在RULER基准上实现超越。这证明了Engram架构具备极高的训练效率，能够以更少的计算资源达到同等或更优的长上下文性能。

05. Engram浅层效果更好，对事实性知识影响较大

DeepSeek团队对Engram模型进行了深入的机制分析与消融实验，旨在探究其工作原理及各组件的作用。

模型深度与表征分析：通过LogitLens分析发现，Engram模型在较浅的层就能更快地收敛到最终预测结果。这是因为模型通过查表直接获取静态知识，无需像传统模型那样通过多层计算重组基础特征。

中心核对齐分析进一步揭示，Engram浅层的表征与纯MoE模型深层的表征高度相似。这意味着Engram让模型在更少的层数内完成了同等复杂的特征提取，在功能上等同于增加了模型的有效深度。

架构消融实验：研究人员发现，将Engram模块置于较浅的层（如第2层）效果最佳。这可以尽早将局部模式重建任务从主网络中卸载，让深层网络更专注于复杂的全局推理。

在组件重要性方面，分支特定融合、上下文感知门控和分词器压缩对性能影响最大，移除任一组件都会导致验证损失显著上升；而轻量级卷积层等次要组件的影响则较小。

功能敏感性分析：为探究Engram模块的具体作用，团队在推理时强制屏蔽其输出以观察性能变化。结果显示：
* 在事实性知识任务上，模型性能出现灾难性下降，仅保留约29-44% 的性能。这证明Engram是模型存储参数化知识的主要仓库。
* 在阅读理解任务上，模型性能几乎不受影响，保留约81-93% 的性能。这表明涉及上下文推理的任务主要由Transformer骨干网络处理。

系统效率与推理吞吐：由于Engram的访问模式可预先确定（不同于MoE的动态路由），系统可以提前从内存中预取数据。实验表明，即使将一个1000亿参数的Engram表卸载到主机内存，其在H800硬件上的推理吞吐量下降也不到3%，这证明了Engram能以极低代价实现参数量的大幅扩展。

此外，Engram的门控机制会在遇到静态模式（如多词实体、固定短语、中文成语、历史名词）时被激活并进行检索；而在处理需要动态推理的文本时，门控则保持关闭。

06. Engram内化记忆，与Attention机制互补

DeepSeek团队将Engram与相关技术进行了对比：
* 与传统MoE：传统MoE通过稀疏激活扩展容量，而Engram解决了其在超大规模下路由成本高、训练不稳定的问题，提供了一种更高效的扩展路径。
* 与外部记忆/检索增强（RAG）：RAG在模型外部挂载数据库进行实时检索，而Engram是内化的记忆，在预训练阶段将知识固化到参数化的记忆表中，具有更低延迟和更强知识一致性的优势。
* 与长上下文建模：Engram并非取代注意力机制，而是与之互补。它负责处理局部的、静态的上下文依赖，从而让注意力机制能更专注于全局的、动态的长程依赖。
* 与表征学习/知识蒸馏：Engram提供了一种新视角——将模型知识解耦为通用推理能力和特定知识库。这种结构天然适合知识蒸馏，未来可考虑仅蒸馏轻量级骨干网络，而将庞大的知识库作为可插拔组件。

07. 结语：Engram将实现低成本超大规模扩展，逼近AGI

Engram架构的核心思想是通过解耦实现效率与性能的平衡。它将“局部模式重建”任务从复杂的Transformer骨干网中剥离，交由专用记忆模块处理，使得模型在保持强大推理能力的同时，能够以极低成本扩展到超大规模。

DeepSeek团队认为，Engram具有很强的工程落地价值。其记忆模块的确定性访问模式便于进行高效的预取和硬件优化，适合大规模部署。此外，知识集中于Engram表中的特性，未来或许支持通过直接修改该表来修正模型知识错误，而无需进行昂贵的微调。

当前Engram的记忆在预训练时被“固化”，未来的一个重要方向是赋予该模块在线学习或动态更新的能力，使模型能实时获取新知识。例如，研究可将其扩展到多模态领域，建立通用多模态记忆库。研究人员还可继续探索将模型解耦为更多专用模块的可能性，以进一步逼近通用人工智能的效率极限。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17560

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

01. Transformer缺乏知识检索机制，经典𝑁-gram架构提供启发

02. 多管齐下打造新型记忆机制，天然支持参数存储与计算资源解耦

03. 两个模块资源二八分成，互补性获验证

04. 架构训练计算量少18%，性能反超MoE

05. Engram浅层效果更好，对事实性知识影响较大

06. Engram内化记忆，与Attention机制互补

07. 结语：Engram将实现低成本超大规模扩展，逼近AGI

相关推荐

揭秘70M小模型层数玄学：隐藏维度≥512是关键，32层成最佳配置

揭秘16层架构：如何构建成本优化、全链路可观测的生产级知识图谱系统Agentic GraphOS

A2UI协议：开启AI原生交互新时代，让智能体“说”出动态界面

智谱GLM-5技术全公开：国产芯片全适配，长任务时代开启

阿里Qwen3.5-Plus实测：3970亿参数模型性能飙升，成本骤降47%