DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

DeepSeek为Transformer引入“条件记忆”模块

DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。

研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

论文不仅提出了“条件记忆”这一新范式,还给出了其具体实现方案——Engram模块。实验表明,配备Engram的27B参数模型性能超越了同规模的纯混合专家模型,并意外地提升了大模型的推理效率:原本需要6层注意力才能完成的简单识别任务,现在仅需1-2层即可完成,从而释放出更多计算资源用于处理复杂的推理任务。

条件记忆的核心原理颇为“复古”:它不依赖复杂计算,而是回归“查表”思路,借鉴了传统的N-gram方法。其核心是为模型提供一个巨大的词表,专门存储固定的实体名称和短短语。无论词表多大,信息检索都能在O(1)的时间复杂度内完成。

关键在于,DeepSeek如何解决传统N-gram模型面临的两个经典难题——存储空间爆炸词语多义性,并将其与现代Transformer架构有效融合?

注意力机制不应被浪费在“苦力活”上

研究团队的核心洞察是:语言建模任务本质包含两种性质迥异的工作——需要深度动态计算的组合推理对静态知识的检索

问题在于,现有Transformer架构缺乏原生的知识查找机制。当模型需要识别一个实体时,它不得不消耗数层注意力与前馈网络,逐层拼凑特征才能完成。论文引用了一个具体案例:识别“Diana, Princess of Wales”。

模型需要经过整整6层处理:前几层还在解析“Wales是英国的一个地区”、“Princess of Wales是某种头衔”等中间状态,直到最后才“回想”起这是指戴安娜王妃。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

这本质上是在用昂贵的运行时计算来重建一个静态的查找表。那些本可用于高层推理的网络深度,被浪费在了识别基础概念这类“苦力活”上。

回归查表:当N-gram遇见Transformer

Engram的设计思路直接明了:既然经典的N-gram模型能以O(1)复杂度捕获局部依赖,何不将这一能力直接嵌入Transformer?

具体实现上,团队在原有Transformer层之间插入Engram模块。每个位置的输入会触发一次哈希查找:将当前token与前几个token组成的N-gram映射到一个巨大的嵌入表中,直接取出对应的向量。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

为处理哈希冲突与多义性问题,团队引入了上下文感知的门控机制。该机制以当前的隐藏状态作为Query,以检索到的记忆作为Key和Value,计算出一个介于0到1之间的标量门控值。如果检索到的内容与当前上下文不匹配,门控值趋近于零,从而自动屏蔽噪声。

在下图中,颜色越深表示Engram越倾向于判断当前文本片段为“固定静态模式”,从而调用记忆库中的对应信息;颜色越浅则表示文本越动态灵活,主要依靠模型的注意力机制处理。例如,单独的“张”是一个常见姓氏,但“张仲景”三个字组合在一起就是一个固定的历史人物实体。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

接下来,团队着手解决传统N-gram模型的两个痛点:
1. 语义重复:同一词语的不同形式被当作不同token,浪费存储空间。
2. 存储爆炸:所有可能的N-gram组合数量过于庞大,直接存储不可行。

DeepSeek团队首先压缩了分词器,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少了23%,提升了查找效率。

随后,他们采用多个哈希函数将N-gram映射到固定大小的嵌入表索引。这既解决了存储爆炸问题(无论多少种N-gram,都映射到固定大小的表),又减少了查找冲突(为每种N-gram阶数配备K个不同的哈希头,每个头对应独立的嵌入表)。最终,将所有检索到的嵌入向量拼接,形成供后续模块使用的“记忆向量”eₜ。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

U型曲线:MoE与记忆模块的最优配比

论文最核心的部分是对“稀疏性分配问题”的系统研究。团队设计了一个严格的实验框架:在固定总参数量和每token激活参数量的前提下,于MoE专家和Engram记忆之间重新分配“闲置参数”预算。

当分配比例ρ从100%(纯MoE)逐步降至40%时,实验结果描绘出一条清晰的U型曲线

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

纯MoE并非最优解。当将大约20%到25%的稀疏参数预算分配给Engram记忆时,模型在验证集上的损失达到最低点。在100亿参数规模下,此最优配置比纯MoE基线的损失降低了0.0139。更重要的是,这个最优分配点在不同计算预算下都相当稳定,大约在ρ=75%到80%之间。

团队解释了U型曲线两端的含义:
* MoE主导时:模型缺乏对静态模式的专用记忆,被迫低效地通过网络深度和大量计算来重建知识。
* Engram主导时:模型丢失了条件计算能力,在需要动态推理的任务上表现下降。

结论是:记忆无法替代计算,计算也无法高效模拟记忆,二者需要协同工作。

27B规模验证:推理能力提升超预期

依据U型曲线的指导,团队将Engram扩展到更大参数规模进行验证,并与纯MoE模型及纯密集模型对比。所有模型训练条件一致,差异仅在于“稀疏能力分配”:
* Dense-4B:纯密集模型。
* MoE-27B:纯混合专家模型。
* Engram-27B:MoE+Engram混合模型,将5.7B稀疏参数分配给Engram。
* Engram-40B:进一步扩展Engram模块,记忆参数增至18.5B。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

结果,与MoE-27B相比,Engram-27B的表现超出预期:
* 知识密集型任务:如MMLU提升3分,CMMLU提升4.0分,符合预期。
* 通用推理与代码数学领域:提升幅度意外显著,如BBH大幅提升5.0分,HumanEval提升3.0分,MATH提升2.4分。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

团队通过LogitLens和CKA分析揭示了原因。Engram让模型的早期层无需再做特征组合的“苦力活”,其预测收敛速度明显更快。CKA相似度矩阵显示,Engram-27B第5层的表征,与MoE基线第12层的表征最为相似。这意味着Engram实质上“加深”了网络的有效深度,省下来的层数被用于处理更复杂的推理任务。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

Engram-40B在进一步增加记忆参数后,大部分任务性能持续提升,且训练后期损失仍在下降,表明记忆容量尚未饱和,未来仍有扩展空间。

此外,在长上下文场景下的提升尤为显著。在RULER测试集上,多项关键指标大幅跃升。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

论文解释称,Engram将局部依赖建模卸载给了查找操作,从而释放了注意力机制的容量,使其能更专注于全局上下文关系

工程实践:百亿参数表置于CPU,延迟影响微乎其微

研究也涉及了关键的工程优化。在训练阶段,规模高达100B参数的词表无法存入单个GPU,需拆分至多个GPU并通过All-to-All通信机制交换所需记忆片段。

在推理阶段,团队将词表卸载到CPU内存。与MoE的动态路由不同,Engram的查找索引完全由输入token序列决定,可以提前计算,因此记忆调用几乎不会拖慢整体计算节奏

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

确定性寻址机制使得团队能够将庞大的嵌入表存储在CPU内存中,并利用PCIe进行异步预取,从而实现通信与前序层计算的重叠。

具体实现上,Engram模块被插入Transformer网络的特定层。当GPU计算前一层时,CPU会并行预取当前层所需的Engram记忆。待GPU完成前一层计算时,所需记忆也已通过PCIe传输到位。

实验将一张包含1000亿参数的Engram表置于CPU内存中,在H800 GPU上进行推理测试。结果显示,4B密集模型的吞吐量从9031 token/s略微下降至8858 token/s,8B密集模型则从6315 token/s降至6140 token/s,额外开销均控制在3%以内。

DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

自然语言的N-gram天然遵循Zipfian分布,即极少量的高频模式占据了绝大多数的访问量。这一特性使得设计多级缓存架构成为可能:将高频嵌入存储在GPU显存中,中频嵌入置于CPU内存,而长尾嵌入则可存放于NVMe SSD。这种分层策略能有效降低平均访问延迟。

DeepSeek团队在论文结论中指出:

Engram将“硬件感知效率”确立为核心设计原则:其确定性寻址机制支持存储与计算的解耦,能够将海量参数表卸载至主机内存,且推理开销可忽略不计。我们认为,条件记忆将成为下一代稀疏模型中不可或缺的建模基元。

论文地址:
https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17581

(0)
上一篇 2026年1月13日 上午12:41
下一篇 2026年1月13日 上午8:24

相关推荐

  • Python开发者的效率革命:5个必知库加速你的工作流

    大多数开发者都曾在不同项目中重复进行环境搭建、调试或数据清洗等任务。选择合适的库可以将这些日常重复性工作自动化,从而节省大量时间和精力。 以下介绍的库能在一周内为你悄然节省数小时。它们简化日志记录、自动处理数据、构建更清晰的命令行界面,并让你的整个工作流程更加顺畅。 1. Pygwalker 📊 数据探索并非一定要编写大量可视化代码。Pygwalker 能将…

    2025年12月6日
    7400
  • DSPy 3与GEPA:革新RAG框架的自动推理与提示进化技术

    近期,OpenAI 发布了 GPT-5.2 模型,引发了广泛关注。路透社报道称,OpenAI 在竞争压力下加速了研发进程。此次更新并非功能堆砌,而是聚焦于在智能、代码处理、长文本理解等核心能力上的显著提升,尤其擅长处理创建电子表格、制作演示文稿等复杂的多步骤任务。 简而言之,GPT-5.2 是一次面向实用场景的“精修”,在可靠性、长上下文处理、工具执行和输出…

    2026年1月20日
    5400
  • Gemini 3深度评测:硬核编程的SOTA王者,为何在Web开发上“翻车”?

    📌 简短结论:强得离谱,但并非全能 综合各类基准测试与我的实际体验,可以得出结论:Gemini 3 是目前我测试过最接近“真实智能”的模型。特别是在硬核编程任务上,其表现超越了包括 GPT-5 Pro 和 Gemini 2.5 Deep Think 在内的所有竞品。 ✅ 当前处于 SOTA(最优)水平的领域: 调试复杂的编译器 Bug 无逻辑错误地重构大型代…

    2025年11月22日
    8000
  • QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5

    作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…

    2025年12月29日
    7900
  • Twill:斯坦福与NVIDIA联手打造Tensor Core GPU自动优化引擎,终结手工内核调优时代

    关键词: Tensor Core GPU 、Software Pipelining 、Warp Specialization 、Twill、Constraint Solving、 Modulo Scheduling 随着 AI 大模型向“更大参数、更长序列”发展,Tensor Core GPU 的优化需求将持续增长。Twill 所代表的“约束求解驱动的最优优…

    2025年12月29日
    6800