DeepSeek Engram 记忆神话破灭:外部记忆实为“伪负载”,结构优化才是性能关键(上)
关键词:DeepSeek Engram、LLM、外部记忆、 正则化、残差通路
在LLM架构创新中,DeepSeek Engram以“推理与知识分离”为核心主张,凭借外部N-gram记忆表的知识托管、O(1)检索等特性,一度被寄予解决Transformer原生知识查找缺陷的厚望。其声称通过百亿参数级外部记忆库实现精准记忆读取,成为记忆增强架构的热门方向。
然而, 本文作者团队的控制变量实验却颠覆了这一认知:将记忆表替换为高斯白噪声、统一共享向量,甚至仅保留单一存储单元,模型性能仍显著优于纯训练基线,且与原版效果相差无几 。研究揭示,Engram的性能增益并非来自所谓的知识检索,而是源于门控结构与残差通路带来的优化特性 ,外部记忆表实则仅扮演正则化“伪负载”角色。
这一发现不仅打破了对Engram记忆功能的固有认知,更为LLM架构优化提供了新思路——无需复杂的系统级调度与海量显存占用,仅通过结构优化即可实现性能提升,为降本增效的模型开发提供了重要启示。

目录
- 一、缘起:完美的记忆增强架构
- 1.1 一个朴素而致命的疑问
- 二、控制变量实验:四组模型的记忆真相测试
- 2.1 令人沉默的实验结果
- 三、正则化的外衣:当记忆库变成梯度旁路
- 3.1 微弱的“真记忆”增益
- 3.2 背后的朴素数学直觉
- 四、它到底有没有记忆?答案是否定的
- 4.1 直接内容干预实验的失败
- 4.2 事实型提示词下的进一步验证
- 五、规模扩大后的结论固化:3B 参数模型的验证
- 5.1 五条件消融的最终结论
- 六、工程启示:扔掉记忆库,拥抱随机噪声
- 结语:请礼貌地追问那个庞大的记忆表

一、缘起:完美的记忆增强架构
论文里声称Transformer缺乏原生的知识查找算子,提出将静态知识托管给外部N-gram嵌入表,通过O(1)检索解放前序计算层……听起来简直是完美的记忆增强架构,是一个“好文明”!
1.1 一个朴素而致命的疑问
一个自然而然的问题是:那个动辄百亿参数、被大书特书富含海量世界知识的外部记忆表,真的必不可少吗?里面的知识真的被有效利用了吗?
二、控制变量实验:四组模型的记忆真相测试
为此,我们设计了一个简单的控制变量实验,包含四组对比模型:
- Real:原汁原味的Engram,使用训练好的庞大记忆表。
- Randomize:将巨大的N-gram表全部替换为高斯白噪声(随机初始化并冻结,不参与更新)。
- Uniform:强制所有哈希函数映射到同一个存储单元,即所有词元查表得到的都是同一个共享向量。
- Dense Baseline:没有任何Engram分支的纯训练基线模型。
2.1 令人沉默的实验结果
实验结果出乎意料,令人深思。

初步结论是:Real > Uniform ≈ Randomize >>>>> Dense Baseline。
三、正则化的外衣:当记忆库变成梯度旁路
你没看错。即使向那个被寄予厚望的记忆库里塞满纯粹的随机噪声(Randomize),或者让所有词元都查询同一个向量(Uniform),其效果依然能显著超越纯训练的Dense基线模型。即便我们将记忆表的有效容量破坏到只剩一个存储单元,模型依然表现良好。
这揭示了一个关键事实:这本质上是一个披着记忆外衣的巨大正则化结构。
3.1 微弱的“真记忆”增益
或许有人会争辩:“Real版本还是比Uniform好一点点,这说明知识还是有用的!”
确实,记忆表中的内容贡献了微弱的增益。但这好比你以为自己吃的是“十全大补丸”(外部知识),实际上真正让你强身健体的是“每天按时喝水”(多了一条残差通路)。所谓的Engram增益,绝大部分并非来自精准的细粒度记忆读取,而是源于架构/通路本身带来的优化性质。我们可能不需要记忆本身,只需要“幻想”记忆存在即可。
3.2 背后的朴素数学直觉
这背后的数学原因可能极其朴素:Engram那个看似花哨的
门控 * 记忆向量结构,其实只是在原有的梯度流上开辟了一条额外的旁路。
那个上下文感知的门控机制才是真正有意义的部分,它根据当前的隐藏状态动态学习如何调节特征。而外部的记忆表扮演的不过是一个“虚拟负载”——即使这个负载是一团随机噪声,只要加上这层非线性门控,就能为早期网络层提供良好的梯度引导和宏观统计场,促使模型更快收敛。
一个启发式的比喻是:你多修了一条高速公路,至于上面跑的是运钞车(真实知识)还是垃圾车(随机噪声),对于缓解主干道交通拥堵(梯度传播)的效果相差无几。
四、它到底有没有记忆?答案是否定的
那么它是否真正起到了记忆的作用?答案是否定的。
4.1 直接内容干预实验的失败
如果一个模块真正在进行强意义上的检索,那么当我们对其记忆内容进行针对性干预时,模型的输出应当表现出相应的、可预测的变化。例如,如果我们选择理论上最有利的记忆单元,并刻意将特定的“供体”内容注入其中,模型至少应该在这些位置表现出更强的“供体”导向性、排名变化,甚至是在生成结果的可见性上有所提升。然而,实验结果并不支持这一设想。

即使在效果最强的记忆单元上,直接的内容操控也未能产生那种强有力、稳定且可编程的、类似于检索的控制效果。这一点至关重要,它表明 Engram 机制中虽然确实存在内容信号,但其作用方式并非如原论文所声称的那样,是一个外包的语义记忆库。
4.2 事实型提示下的进一步验证
或许有人会提出:可能你们选择的测试任务不够“记忆”化。如果换成更具事实性的提示,外部内容的作用或许会更明显。
这个反驳是合理的,因此我们也进行了这组实验。结果依然没有出现我们原本期待的、类似检索的行为。
五、规模扩大后的结论固化:30亿参数模型的验证

如果有人认为上述现象只是小规模模型复现时产生的假象,那么30亿参数模型的结果就至关重要。首先观察训练轨迹:在30亿规模上,Engram 相比严格的 S0 基线的优势并非仅出现在训练终点,而是在整个训练过程中(除早期个别时刻外)持续存在。这表明 Engram 带来的性能优势是真实且稳定的。
5.1 五条件消融的最终结论

但更具决定性的是最终的五条件消融实验结果。

在30亿参数模型上,我们看到使用真实记忆内容(real)的效果最好,但关闭记忆(off)、随机内容(random)和均匀内容(uniform)三者的性能非常接近,而它们整体又显著优于严格的 S0 基线。随着模型规模扩大,我们并未观察到其行为越来越像检索的趋势,反而看到了更强的、由路径(pathway)主导的模式。这与我们对 Engram 机制的原始直觉完全不符。
六、工程启示:摒弃记忆库,拥抱随机噪声
换个角度思考,这其实是一个重大的好消息。原论文花费大量篇幅阐述算法-系统协同设计,讲解如何利用 CPU 主机内存卸载千亿级别的记忆表,如何进行 PCIe 异步预取以掩盖延迟……
既然我们发现,使用均匀路由(将所有信息路由至同一个记忆单元)或完全随机化的内容,就能获得绝大部分性能收益,那么我们完全无需迫使基础设施团队的同事去开发复杂的系统级调度方案。
我们只需要在内存中保留一个参数,或者干脆在每次前向传播时生成一个随机张量(例如 torch.randn),并将其广播给所有层即可! 无需查表,无需跨 PCIe 通信,更无需实现复杂的 Zipfian 缓存分层策略。显存占用可从数百 GB 骤降至数个字节,同时性能还能超越基线,这简直是降本增效的工程奇迹。
结语:请重新审视那个庞大的记忆表
行文仓促,难免有疏漏之处,但实验现象与核心结论应无大谬。
总而言之,你的 DeepSeek Engram 模型可能根本不需要那个巨大的外部记忆表。下次再有人向你吹嘘其大语言模型挂载了多么庞大的外部 N-gram 记忆库时,读者朋友们或许可以礼貌地问一句:“您这表里装的,不会全是正则化偏置吧?”

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29984

