
这一记忆架构有望成为新的Scaling路径。
智东西1月13日报道,昨晚,DeepSeek再次开源,并发布一篇新论文。此次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。

Engram架构的核心优势在于以更低成本实现更优性能。在训练计算量较MoE减少18%的情况下,于32768个token的长上下文任务中,Engram在RULER基准测试中反超了同参数量的MoE模型。其浅层部署的记忆模块接管了局部依赖与静态知识存储,为注意力机制腾出容量以专注全局推理。在1000亿参数记忆表卸载后,H800推理吞吐量降幅不足3%。
DeepSeek还观察到,增加记忆槽位数量能持续、稳定地降低验证损失。这意味着Engram提供了一个可预测的Scaling新手段:增大记忆容量持续带来收益,而无需增加计算量。
那么,这种效果究竟是如何实现的?当前的MoE模型虽然在计算层面实现了稀疏化,但其处理信息的方式仍然低效:对于某些常见的事实性内容,如固定名称、公式或表达,模型仍需重复计算,耗时费力。DeepSeek的做法是,将这些“固定知识”提前整理成一个可快速查询的表格,从而将更多计算资源集中于真正需要深度思考的任务上,如复杂推理或长文本理解。
值得一提的是,论文的第一作者Xin Cheng(程信)目前在北京大学智能学院攻读博士学位,主要研究方向为大模型的高效参数化方法与机制。他同时也在DeepSeek工作,参与了R1、V3等研究项目。

在论文摘要中,DeepSeek提出,条件记忆将成为下一代稀疏模型中不可或缺的建模原语。这或许意味着DeepSeek-V4有望整合条件记忆机制,实现知识高效检索与推理能力的飞跃。
论文链接: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
项目链接: https://github.com/deepseek-ai/Engram
01. Transformer缺乏知识检索机制,经典𝑁-gram架构提供启发
在正式介绍新型记忆机制前,DeepSeek团队首先提出了一项重要观察。稀疏性已成为智能系统的核心设计原则,在大模型领域,其具体实现便是MoE(混合专家模型)。然而,现有的标准Transformer本质上缺乏真正的知识检索机制,导致大模型不得不在早期层中通过昂贵计算来“重建”静态知识,浪费了宝贵的模型深度。因此,DeepSeek认为有必要提出第二个与条件计算互补的稀疏维度:条件记忆。
条件记忆依赖稀疏的查找操作,为固定知识检索静态嵌入表示,适合命名实体、固定表达等静态且高度模式化的语言表示。DeepSeek团队向经典的𝑁-gram结构引入了现代化的条件记忆模块,包括分词器压缩、多头哈希、上下文化门控以及多分支集成等,最终提出了Engram。
下图展示了Engram的基本架构。通俗地说,Engram是为Transformer增加一个外接记忆库,将当前token附近的一小段内容,以快速、省参数的方式,在一个超大的静态记忆表中查询对应内容。

02. 多管齐下打造新型记忆机制,天然支持参数存储与计算资源解耦
这个记忆库是如何具体实现的?
首先,DeepSeek团队对分词器进行了压缩。普通分词器会将“Apple”、“apple”、“APPLE”等视为完全不同的词元,但对人类而言其语义差别不大。Engram先将词表清洗,统一转为小写,并进行Unicode规范化(NFKC)。最终,一个原本128k的词表实际仅保留了77%,有23%的token ID被合并。这显著提升了N-gram记忆的密度。
然而,直接对所有𝑁-gram进行建模是不可行的,参数会指数级增长。DeepSeek团队引入了多头哈希记忆,在固定参数预算下近似大规模𝑁-gram表,以降低哈希碰撞引入的语义噪声。
上述检索机制提供的记忆是静态的,缺乏上下文适应性,易受歧义与冲突的影响。这一问题可通过上下文感知门控来解决。为进一步扩大感受野并增强非线性建模能力,模型还引入了一个深度可分离因果卷积。
DeepSeek团队采用多分支架构作为默认主干网络,而非标准的单流残差连接(这是何恺明此前的研究成果)。多分支架构将残差流扩展为M个并行分支,但共享记忆表和输出映射。这样设计的好处是,它可以一次性通过矩阵乘法完成多条分支的计算,GPU利用效率极高。
Engram的核心优势在于,记忆检索完全依赖输入token,而非运行时的隐藏状态。这种确定性机制实现了参数存储与计算资源的解耦,支持训练和推理阶段采取专门的优化策略:

▲ Engram训练和推理阶段可采用不同优化策略
- 训练优化:通过将超大嵌入表分片至多张GPU,利用All-to-All通信按需收集对应行,使总记忆容量随GPU数量线性扩展。
- 推理优化:由于可提前确定待查询记忆,系统可从主机内存异步预取,同时在前几层计算期间隐藏通信延迟,实现预取与计算的重叠,避免GPU停顿。
- 硬件-算法协同设计:Engram在模型中的放置位置需平衡建模性能与系统延迟。较早引入有助于局部模式重建,较深放置则延长延迟隐藏窗口,需兼顾二者优化。
- 层次化存储:基于自然语言𝑁-gram的Zipf分布特性,可采用多级缓存策略,高频嵌入存放于GPU HBM或主机DRAM,低频嵌入置于SSD。这使Engram能扩展至超大规模记忆,同时保持低延迟与高效率。
03. 两个模块资源二八分成,互补性获验证
接下来,DeepSeek团队研究了另一个关键问题——条件计算(MoE)和条件记忆(Engram)这两种稀疏模式应如何配合,才能发挥最佳效果?
实验发现,在有限资源下,将所有空闲参数都分配给MoE(即纯MoE模型)并非最优解。最佳效果出现在将大约75%-80%的资源分配给MoE,其余20%-25%分配给Engram时。 如果完全由MoE主导,模型缺乏静态模式的专用记忆,只能依靠计算反复重建,效率低下。而如果完全由Engram主导,模型则失去了动态计算能力,无法应对需要上下文理解的任务。这条U型曲线验证了两个模块的结构互补性:

前述实验探索的是在固定参数预算下的分配优化。那么,如果大幅度扩展记忆容量,会发生什么?实验在MoE主干网络不变的情况下,附加Engram记忆表。结果显示,增加记忆槽位数量能持续、稳定地降低验证损失。在探索范围内,曲线严格遵循幂律(在对数空间呈线性)。DeepSeek认为,这意味着Engram提供了一个可预测的Scaling新手段:增大记忆容量持续带来收益,而无需增加计算量。

同时,与其它仅做简单平均的记忆方法(如OverEncoding)相比,Engram的Scaling潜力更大,性能提升更明显。这些结果验证了条件记忆作为稀疏容量的独立可扩展维度,与MoE的条件计算形成了有效互补。
04. 架构训练计算量少18%,性能反超MoE
验证了架构与技术路径的可行性后,DeepSeek团队的下一步便是进行大规模扩展,以验证这种方式在实际语言模型预训练中的有效性。
具体而言,DeepSeek训练了四个模型:Dense-4B、MoE-27B、Engram-27B、Engram-40B。训练时的语料库、分词器均保持一致,后两个模型则引入了Engram机制,用以研究在模型参数量不变以及Engram进一步扩展后的特性。
实验结果显示,在相同算力与参数量的条件下,Engram-27B能够在MoE-27B的基线上取得持续的性能提升,且这些增益并不仅限于知识密集型任务。在通用推理、代码与数学推理任务上,提升更为显著。

这些结果印证了DeepSeek的假设:引入专门的知识查找原语能够提升模型的表征效率,其效果超越了仅将稀疏计算预算用于条件计算的传统方法。
将模型扩展至Engram-40B进一步降低了预训练损失,并在大多数基准测试中提升了性能。虽然它尚未在所有任务上严格超越Engram-27B,但这很可能是训练尚未充分收敛的结果。DeepSeek团队观察到,在训练结束时,Engram-40B与基线模型之间的训练损失差距仍在扩大,这表明在当前训练规模下,扩展的记忆容量尚未完全发挥潜力。
随后,团队以MoE-27B与Engram-27B作为对照组,均使用约300亿token(5000步) 的高质量长上下文数据进行微调,并采用DeepSeek-V3中的YaRN技术将模型上下文窗口扩展至32768个token。实验表明,由于Engram模块接管了局部依赖建模,它为模型的注意力机制释放了容量,使其能更专注于处理全局上下文。因此,Engram架构在处理超长文本和长程推理任务上表现优于传统架构,具体体现在:
* 架构优势:在排除基础模型能力差异后,Engram-27B依然显著优于MoE-27B。
* 长程依赖处理:在复杂的RULER检索基准测试中,Engram展现出更强的长程依赖处理能力。例如在多查询Multi-Query NIAH任务中,其准确率大幅领先。

在计算效率方面,Engram-27B仅使用82% 的预训练计算量,其表现便能与完全训练的MoE-27B基线模型持平,甚至在RULER基准上实现超越。这证明了Engram架构具备极高的训练效率,能够以更少的计算资源达到同等或更优的长上下文性能。
05. Engram浅层效果更好,对事实性知识影响较大
DeepSeek团队对Engram模型进行了深入的机制分析与消融实验,旨在探究其工作原理及各组件的作用。
模型深度与表征分析:通过LogitLens分析发现,Engram模型在较浅的层就能更快地收敛到最终预测结果。这是因为模型通过查表直接获取静态知识,无需像传统模型那样通过多层计算重组基础特征。

中心核对齐分析进一步揭示,Engram浅层的表征与纯MoE模型深层的表征高度相似。这意味着Engram让模型在更少的层数内完成了同等复杂的特征提取,在功能上等同于增加了模型的有效深度。
架构消融实验:研究人员发现,将Engram模块置于较浅的层(如第2层)效果最佳。这可以尽早将局部模式重建任务从主网络中卸载,让深层网络更专注于复杂的全局推理。

在组件重要性方面,分支特定融合、上下文感知门控和分词器压缩对性能影响最大,移除任一组件都会导致验证损失显著上升;而轻量级卷积层等次要组件的影响则较小。
功能敏感性分析:为探究Engram模块的具体作用,团队在推理时强制屏蔽其输出以观察性能变化。结果显示:
* 在事实性知识任务上,模型性能出现灾难性下降,仅保留约29-44% 的性能。这证明Engram是模型存储参数化知识的主要仓库。
* 在阅读理解任务上,模型性能几乎不受影响,保留约81-93% 的性能。这表明涉及上下文推理的任务主要由Transformer骨干网络处理。

系统效率与推理吞吐:由于Engram的访问模式可预先确定(不同于MoE的动态路由),系统可以提前从内存中预取数据。实验表明,即使将一个1000亿参数的Engram表卸载到主机内存,其在H800硬件上的推理吞吐量下降也不到3%,这证明了Engram能以极低代价实现参数量的大幅扩展。
此外,Engram的门控机制会在遇到静态模式(如多词实体、固定短语、中文成语、历史名词)时被激活并进行检索;而在处理需要动态推理的文本时,门控则保持关闭。

06. Engram内化记忆,与Attention机制互补
DeepSeek团队将Engram与相关技术进行了对比:
* 与传统MoE:传统MoE通过稀疏激活扩展容量,而Engram解决了其在超大规模下路由成本高、训练不稳定的问题,提供了一种更高效的扩展路径。
* 与外部记忆/检索增强(RAG):RAG在模型外部挂载数据库进行实时检索,而Engram是内化的记忆,在预训练阶段将知识固化到参数化的记忆表中,具有更低延迟和更强知识一致性的优势。
* 与长上下文建模:Engram并非取代注意力机制,而是与之互补。它负责处理局部的、静态的上下文依赖,从而让注意力机制能更专注于全局的、动态的长程依赖。
* 与表征学习/知识蒸馏:Engram提供了一种新视角——将模型知识解耦为通用推理能力和特定知识库。这种结构天然适合知识蒸馏,未来可考虑仅蒸馏轻量级骨干网络,而将庞大的知识库作为可插拔组件。
07. 结语:Engram将实现低成本超大规模扩展,逼近AGI
Engram架构的核心思想是通过解耦实现效率与性能的平衡。它将“局部模式重建”任务从复杂的Transformer骨干网中剥离,交由专用记忆模块处理,使得模型在保持强大推理能力的同时,能够以极低成本扩展到超大规模。
DeepSeek团队认为,Engram具有很强的工程落地价值。其记忆模块的确定性访问模式便于进行高效的预取和硬件优化,适合大规模部署。此外,知识集中于Engram表中的特性,未来或许支持通过直接修改该表来修正模型知识错误,而无需进行昂贵的微调。
当前Engram的记忆在预训练时被“固化”,未来的一个重要方向是赋予该模块在线学习或动态更新的能力,使模型能实时获取新知识。例如,研究可将其扩展到多模态领域,建立通用多模态记忆库。研究人员还可继续探索将模型解耦为更多专用模块的可能性,以进一步逼近通用人工智能的效率极限。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17560
