DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

DeepSeek V4 缺失的 Engram 模块：记忆与推理分离，下一代模型地基已铺开

DeepSeek V4 的技术报告中，我们看到了 mHC、CSA、HCA、Muon、FP4……

但唯独缺少了 Engram。

Engram 去哪了？

这个话题一度成为网友热议的焦点。

Engram 由 DeepSeek 与北京大学于今年 1 月联合开源，其核心研究方向是大模型的记忆与效率问题。

自从它在 arXiv 上发布以来，业界的讨论便从未停止……

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

这不仅仅因为它是 V4 的序曲，更关键的是，有了 Engram，像“伦敦是英国首都”这类事实性知识，模型无需再调动整个深层网络重新推导，只需直接“查表”即可。

这不仅节省了显存，还释放了深层网络的容量，使其能专注于更高级的推理任务。

正因如此，自 1 月初论文发表以来，所有人都将 Engram 视为 V4 的架构基石，并翘首以盼。

以至于 V4 发布后，大家的第一反应就是在论文中搜索“Engram”，可惜一无所获。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

不少网友甚至认为，缺少 Engram 的 V4 是不完整的。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

没有 Engram，或许成了 DeepSeek V4 最大的遗憾。

然而，Engram 并未消失。随后，三篇值得关注的论文接力出现：

CXL 内存池化版本：将 Engram 部署到多机共享的 CXL 内存池中，解决了大模型多机部署时的存储难题。
无冲突热层实验：对 Engram 的多头哈希优化进行了实证检验，并证伪了一些看似合理的改进方案。
视觉 Tiny Engram：AutoArk 团队将文本领域的 Engram 迁移到了视觉模态，拓展了其应用边界。

因此，尽管 V4 没有直接集成 Engram，但其理念、探索以及后续应用已在悄然铺开，为下一代模型奠定了坚实基础。

Engram 到底是什么

让我们把时间拨回 2026 年 1 月 12 日。

那一天，DeepSeek 联合北京大学发布了一篇长达 33 页的论文《Conditional Memory via Scalable Lookup》。第一作者是 Cheng Xin，一位曾署名过 V3 的北大博士生。最后一位作者，是梁文锋。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

首先，来一个一句话速通版：Engram 是为 Transformer 添加的一个原生知识查表模块。能查到的，就不必再计算。

研究团队的核心观察是，语言建模实际上包含两种性质截然不同的任务：一种是需要深度动态计算的组合推理，另一种是检索静态知识。

此前的问题在于，Transformer 将这两种任务混为一体。模型在识别一个实体时，需要消耗多层注意力和前馈网络来逐层拼凑特征。

论文中举了一个例子：“Diana, Princess of Wales”。模型需要经过 6 层才能完成识别。

前几层还在纠结“Wales 是英国的一个地区”、“Princess of Wales 是某种头衔”这些中间状态，直到最后一层才反应过来这是戴安娜王妃。

这种“用昂贵的运行时计算重建一个静态查找表”的工作，本可以让深层网络去执行更高级的推理。

对此，Engram 的思路非常直接：既然经典的 N-gram 模型能用 O(1) 的时间复杂度捕获这些局部依赖，那么干脆就把这种能力直接嵌入到 Transformer 中。

打个比方，就像你做数学题，常用的公式不必每次都从头推导，直接查表代入即可。之前的 Transformer 没有这张表，只能每道题都从公理开始推导。Engram 相当于把这张表直接交到了模型手中。

具体做法是，在 Transformer 的第 2 层和第 15 层之间，各插入一个 Engram 模块。

每个位置的输入会触发一次哈希查找，将当前 token 和其前面几个 token 组成的 N-gram 映射到一个巨大的嵌入表中，并直接取出对应的向量。

门控机制确保当查找到的内容与当前上下文不匹配时，能够自动屏蔽。例如，“张”是一个常见姓氏，但当“张仲景”三个字组合在一起时，就形成了一个固定的历史人物实体，门控机制就负责识别这种区别。

Engram 的定位是 MoE 之外的另一条稀疏化路径。MoE 是将计算稀疏化，只激活部分专家。而 Engram 是将存储稀疏化，只查找部分条目。两者互补，并不冲突。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

论文中最核心的实验，是在固定总参数和每 token 激活参数的前提下，让 MoE 专家和 Engram 记忆竞争预算，最终得到了一条 U 形曲线。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

纯 MoE 并非最优解。当大约 20% 到 25% 的稀疏参数分配给 Engram 时，模型的 loss 达到了最低点。

根据这条曲线的指导，研究团队将 Engram 扩展到了 27B 参数进行验证。激活参数为 3.8B，训练了 262B tokens，并严格与 MoE-27B 基线对齐。

结果，知识密集型任务的提升符合预期（MMLU +3.4，CMMLU +4.0），但通用推理和代码数学的提升则超出了预期（BBH +5.0，ARC-Challenge +3.7，HumanEval +3.0，MATH +2.4）。在长上下文场景下，效果更是惊人，Multi-Query NIAH 从 84.2% 跃升至 97.0%。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

那么，为什么一个记忆模块反而能提升推理能力呢？

LogitLens 和 CKA 分析给出了答案：Engram-27B 第 5 层的表征，与 MoE 基线第 12 层的表征最为相似。

Engram 将模型的早期层从“重建静态知识”这种繁重工作中解放出来，这部分网络深度被腾出来用于更复杂的推理。Engram 不仅仅是新增了一块记忆，它变相地加深了网络。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

在工程实现上，论文将一个 1000 亿参数的 Engram 表整个部署到 host DRAM 中，在 H800 上运行推理时，8B-Dense 的吞吐损失仅为 2.8%。

这得益于 Engram 索引的确定性——它只取决于输入的 token 序列，因此完全可以提前计算，并通过 CPU 异步预取与 GPU 计算重叠来实现。

可以说，这个模块天生就不依赖 HBM。只可惜，如今 V4 已经到来，Engram 却缺席了。

没在 V4，但在其他地方

发明者将它搁置一旁，但探索之路并未停止。在三个月的时间里，至少出现了三个值得关注的工作。

把 Engram 塞进 CXL 内存池

3 月 10 日，北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文，《Pooling Engram Conditional Memory in Large Language Models using CXL》。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

他们并未修改 Engram 本身，而是回答了一个更偏工程的问题：如果 Engram 真的成为下一代标配，它的内存该放在哪里？

答案是 CXL 内存池化。GPU HBM 放置计算权重，本地 DRAM 作为二级缓存，CXL 池作为三级缓存。8 台服务器共享一个 4TB 的内存池，采用 XConn XC50256 交换芯片构建拓扑，带宽为 512GB/s。

整个方案集成到了 SGLang 中，并实现了预取与计算的重叠。最终，端到端吞吐损失小于 5%。Engram 论文中那句“将 1000 亿嵌入表卸载到 DRAM”的轻描淡写，被他们通过 27B 和 40B 两个规模的真实测试验证了。

结论很清晰：Engram 这种确定性寻址、可预取的负载，几乎是为 CXL 量身定做的。

一个反直觉的实验

Engram 论文上线后的第 11 天，1 月 23 日，一位名叫 TaoLin 的研究者以单作者身份发布了《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

他试图验证一个看似明显的优化点：Engram 使用多头哈希查表时会产生冲突。如果使用 Minimal Perfect Hash Function 彻底消除高频 N-gram 的冲突，模型是否会更优？

他设计了 Engram-Nine，将记忆分为无冲突的“热层”和保留多头哈希的“冷层”。

结果却反直觉。在严格的 iso-parameter 控制下，无冲突设计并未稳定地提升验证 loss。

route-stratified 评估还发现，在训练初期，热路径（高频）的 loss 更低，但到了训练后期，冷路径反而超过了热路径。

一个看似明显的优化方向，被一个真正动手做实验的人证伪了。

把 Engram 推到视觉（AutoArk / Tiny Engram）

GitHub 上一个名为 AutoArk 的团队开发了 Tiny Engram。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

在基于 Qwen-3 完整复现了文本 Engram 之后，他们做了一件论文里没有做过的事：将 Engram 迁移到了 Stable Diffusion 上。

视觉 patch 经过分层编码，底层捕获纹理，中层捕获部件，高层捕获风格，然后将整套信息丢进哈希查找表中。

与LoRA相比，在实现同等效果的前提下，Engram所需的额外参数仅为LoRA的15%至30%。当连续注入多个新概念时，LoRA会出现明显的概念退化现象，而Engram则不会受到这种影响。

Engram最初是为文本场景设计的。AutoArk则相当于撞开了这扇大门——只要模态能够离散化、能够被哈希处理，Engram都可以将其纳入应用范围。

在过去的三个月里，围绕Engram这条技术路线，发明者最为沉默，而跟进者各自迈出了自己的步伐。

一个团队为其解决了多机内存层级的问题；一位独立研究者证伪了一个看似显而易见的优化方向；还有一个开源团队将其推广到了视觉领域。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

而deepseek-ai/Engram这个仓库，最后一次提交记录仍停留在1月14日。

One more thing

Engram论文的摘要结尾处写道：

我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

看来，这个“下一代”恐怕要等到V5了，难道会是V4.1？

参考链接

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

🔹 谁会代表2026年的AI？

龙虾爆火，带动了一波Agent及其衍生产品浪潮。
但真正值得长期关注的AI公司和产品，或许远不止这些。

如果你正在参与或见证这些变化，欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

一键关注 👇 点亮星标科技前沿进展每日见

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33081

DeepSeek V4缺失的Engram模块：记忆与推理分离，下一代模型地基已铺开

DeepSeek V4 缺失的 Engram 模块：记忆与推理分离，下一代模型地基已铺开

Engram 到底是什么

没在 V4，但在其他地方

把 Engram 塞进 CXL 内存池

一个反直觉的实验

把 Engram 推到视觉（AutoArk / Tiny Engram）

One more thing

相关推荐

揭秘Prompt工程：一个简单技巧让AI准确率提升200%

劈开教育“不可能三角”：揭秘AI名师如何实现千人千面个性化教学

腾讯混元团队发布HY-Embodied-0.5系列模型，为具身智能量身定制，实现物理世界精准交互

智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

AI取代不了程序员，明年全流程上AI！谷歌工程负责人自曝：2026年AI编程完整工作流！经典软件工程纪律没过时，在AI时代更重要