DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

DeepSeek V4 缺失的 Engram 模块:记忆与推理分离,下一代模型地基已铺开

DeepSeek V4 的技术报告中,我们看到了 mHC、CSA、HCA、Muon、FP4……

但唯独缺少了 Engram

Engram 去哪了?

这个话题一度成为网友热议的焦点。

Engram 由 DeepSeek 与北京大学于今年 1 月联合开源,其核心研究方向是大模型的记忆与效率问题。

自从它在 arXiv 上发布以来,业界的讨论便从未停止……

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

这不仅仅因为它是 V4 的序曲,更关键的是,有了 Engram,像“伦敦是英国首都”这类事实性知识,模型无需再调动整个深层网络重新推导,只需直接“查表”即可。

这不仅节省了显存,还释放了深层网络的容量,使其能专注于更高级的推理任务。

正因如此,自 1 月初论文发表以来,所有人都将 Engram 视为 V4 的架构基石,并翘首以盼。

以至于 V4 发布后,大家的第一反应就是在论文中搜索“Engram”,可惜一无所获。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

不少网友甚至认为,缺少 Engram 的 V4 是不完整的。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

没有 Engram,或许成了 DeepSeek V4 最大的遗憾。

然而,Engram 并未消失。随后,三篇值得关注的论文接力出现:

  • CXL 内存池化版本:将 Engram 部署到多机共享的 CXL 内存池中,解决了大模型多机部署时的存储难题。
  • 无冲突热层实验:对 Engram 的多头哈希优化进行了实证检验,并证伪了一些看似合理的改进方案。
  • 视觉 Tiny Engram:AutoArk 团队将文本领域的 Engram 迁移到了视觉模态,拓展了其应用边界。

因此,尽管 V4 没有直接集成 Engram,但其理念、探索以及后续应用已在悄然铺开,为下一代模型奠定了坚实基础。

Engram 到底是什么

让我们把时间拨回 2026 年 1 月 12 日。

那一天,DeepSeek 联合北京大学发布了一篇长达 33 页的论文《Conditional Memory via Scalable Lookup》。第一作者是 Cheng Xin,一位曾署名过 V3 的北大博士生。最后一位作者,是梁文锋。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

首先,来一个一句话速通版:Engram 是为 Transformer 添加的一个原生知识查表模块。能查到的,就不必再计算。

研究团队的核心观察是,语言建模实际上包含两种性质截然不同的任务:一种是需要深度动态计算的组合推理,另一种是检索静态知识。

此前的问题在于,Transformer 将这两种任务混为一体。模型在识别一个实体时,需要消耗多层注意力和前馈网络来逐层拼凑特征。

论文中举了一个例子:“Diana, Princess of Wales”。模型需要经过 6 层才能完成识别。

前几层还在纠结“Wales 是英国的一个地区”、“Princess of Wales 是某种头衔”这些中间状态,直到最后一层才反应过来这是戴安娜王妃。

这种“用昂贵的运行时计算重建一个静态查找表”的工作,本可以让深层网络去执行更高级的推理。

对此,Engram 的思路非常直接:既然经典的 N-gram 模型能用 O(1) 的时间复杂度捕获这些局部依赖,那么干脆就把这种能力直接嵌入到 Transformer 中。

打个比方,就像你做数学题,常用的公式不必每次都从头推导,直接查表代入即可。之前的 Transformer 没有这张表,只能每道题都从公理开始推导。Engram 相当于把这张表直接交到了模型手中。

具体做法是,在 Transformer 的第 2 层和第 15 层之间,各插入一个 Engram 模块。

每个位置的输入会触发一次哈希查找,将当前 token 和其前面几个 token 组成的 N-gram 映射到一个巨大的嵌入表中,并直接取出对应的向量。

门控机制确保当查找到的内容与当前上下文不匹配时,能够自动屏蔽。例如,“张”是一个常见姓氏,但当“张仲景”三个字组合在一起时,就形成了一个固定的历史人物实体,门控机制就负责识别这种区别。

Engram 的定位是 MoE 之外的另一条稀疏化路径。MoE 是将计算稀疏化,只激活部分专家。而 Engram 是将存储稀疏化,只查找部分条目。两者互补,并不冲突。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

论文中最核心的实验,是在固定总参数和每 token 激活参数的前提下,让 MoE 专家和 Engram 记忆竞争预算,最终得到了一条 U 形曲线。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

纯 MoE 并非最优解。当大约 20% 到 25% 的稀疏参数分配给 Engram 时,模型的 loss 达到了最低点。

根据这条曲线的指导,研究团队将 Engram 扩展到了 27B 参数进行验证。激活参数为 3.8B,训练了 262B tokens,并严格与 MoE-27B 基线对齐。

结果,知识密集型任务的提升符合预期(MMLU +3.4,CMMLU +4.0),但通用推理和代码数学的提升则超出了预期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4)。在长上下文场景下,效果更是惊人,Multi-Query NIAH 从 84.2% 跃升至 97.0%。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

那么,为什么一个记忆模块反而能提升推理能力呢?

LogitLens 和 CKA 分析给出了答案:Engram-27B 第 5 层的表征,与 MoE 基线第 12 层的表征最为相似。

Engram 将模型的早期层从“重建静态知识”这种繁重工作中解放出来,这部分网络深度被腾出来用于更复杂的推理。Engram 不仅仅是新增了一块记忆,它变相地加深了网络

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

在工程实现上,论文将一个 1000 亿参数的 Engram 表整个部署到 host DRAM 中,在 H800 上运行推理时,8B-Dense 的吞吐损失仅为 2.8%。

这得益于 Engram 索引的确定性——它只取决于输入的 token 序列,因此完全可以提前计算,并通过 CPU 异步预取与 GPU 计算重叠来实现。

可以说,这个模块天生就不依赖 HBM。只可惜,如今 V4 已经到来,Engram 却缺席了。

没在 V4,但在其他地方

发明者将它搁置一旁,但探索之路并未停止。在三个月的时间里,至少出现了三个值得关注的工作。

把 Engram 塞进 CXL 内存池

3 月 10 日,北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

他们并未修改 Engram 本身,而是回答了一个更偏工程的问题:如果 Engram 真的成为下一代标配,它的内存该放在哪里?

答案是 CXL 内存池化。GPU HBM 放置计算权重,本地 DRAM 作为二级缓存,CXL 池作为三级缓存。8 台服务器共享一个 4TB 的内存池,采用 XConn XC50256 交换芯片构建拓扑,带宽为 512GB/s。

整个方案集成到了 SGLang 中,并实现了预取与计算的重叠。最终,端到端吞吐损失小于 5%。Engram 论文中那句“将 1000 亿嵌入表卸载到 DRAM”的轻描淡写,被他们通过 27B 和 40B 两个规模的真实测试验证了。

结论很清晰:Engram 这种确定性寻址、可预取的负载,几乎是为 CXL 量身定做的。

一个反直觉的实验

Engram 论文上线后的第 11 天,1 月 23 日,一位名叫 TaoLin 的研究者以单作者身份发布了《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

他试图验证一个看似明显的优化点:Engram 使用多头哈希查表时会产生冲突。如果使用 Minimal Perfect Hash Function 彻底消除高频 N-gram 的冲突,模型是否会更优?

他设计了 Engram-Nine,将记忆分为无冲突的“热层”和保留多头哈希的“冷层”。

结果却反直觉。在严格的 iso-parameter 控制下,无冲突设计并未稳定地提升验证 loss。

route-stratified 评估还发现,在训练初期,热路径(高频)的 loss 更低,但到了训练后期,冷路径反而超过了热路径。

一个看似明显的优化方向,被一个真正动手做实验的人证伪了。

把 Engram 推到视觉(AutoArk / Tiny Engram)

GitHub 上一个名为 AutoArk 的团队开发了 Tiny Engram。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

在基于 Qwen-3 完整复现了文本 Engram 之后,他们做了一件论文里没有做过的事:将 Engram 迁移到了 Stable Diffusion 上。

视觉 patch 经过分层编码,底层捕获纹理,中层捕获部件,高层捕获风格,然后将整套信息丢进哈希查找表中。

与LoRA相比,在实现同等效果的前提下,Engram所需的额外参数仅为LoRA的15%至30%。当连续注入多个新概念时,LoRA会出现明显的概念退化现象,而Engram则不会受到这种影响。

Engram最初是为文本场景设计的。AutoArk则相当于撞开了这扇大门——只要模态能够离散化、能够被哈希处理,Engram都可以将其纳入应用范围。

在过去的三个月里,围绕Engram这条技术路线,发明者最为沉默,而跟进者各自迈出了自己的步伐。

一个团队为其解决了多机内存层级的问题;一位独立研究者证伪了一个看似显而易见的优化方向;还有一个开源团队将其推广到了视觉领域。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

而deepseek-ai/Engram这个仓库,最后一次提交记录仍停留在1月14日。

One more thing

Engram论文的摘要结尾处写道:

我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

看来,这个“下一代”恐怕要等到V5了,难道会是V4.1?

参考链接

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

🔹 谁会代表2026年的AI?

龙虾爆火,带动了一波Agent及其衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许远不止这些。

如果你正在参与或见证这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

DeepSeek V4缺失的Engram模块:记忆与推理分离,下一代模型地基已铺开

一键关注 👇 点亮星标科技前沿进展每日见


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33081

(0)
上一篇 2026年5月4日 下午8:15
下一篇 2026年5月4日 下午8:16

相关推荐