โมดูล Engram ที่หายไปใน DeepSeek V4: การแยกความจำและการอนุมาน รากฐานของโมเดลรุ่นถัดไปถูกวางไว้แล้ว
ในรายงานทางเทคนิคของ DeepSeek V4 เราได้เห็น mHC, CSA, HCA, Muon, FP4…
แต่สิ่งที่ขาดหายไปคือ Engram
Engram หายไปไหน?
ประเด็นนี้กลายเป็นประเด็นร้อนที่ถูกพูดถึงในหมู่ผู้ใช้อินเทอร์เน็ต
Engram ถูกเปิดเผยเป็นโอเพนซอร์สโดย DeepSeek ร่วมกับมหาวิทยาลัยปักกิ่งเมื่อเดือนมกราคมปีนี้ โดยมีทิศทางการวิจัยหลักเกี่ยวกับปัญหาความจำและประสิทธิภาพของโมเดลขนาดใหญ่
นับตั้งแต่เผยแพร่บน arXiv การอภิปรายในวงการก็ไม่เคยหยุดนิ่ง…

ไม่เพียงเพราะมันเป็นบทนำของ V4 เท่านั้น แต่ที่สำคัญกว่านั้น เมื่อมี Engram ความรู้เชิงข้อเท็จจริงอย่าง “ลอนดอนเป็นเมืองหลวงของอังกฤษ” โมเดลไม่จำเป็นต้องเรียกใช้โครงข่ายลึกทั้งหมดเพื่ออนุมานใหม่ เพียงแค่ “ค้นหาตาราง” โดยตรงก็พอ
这不仅节省了显存,还释放了深层网络的容量,使其能专注于更高级的推理任务。
ด้วยเหตุนี้ ตั้งแต่ตีพิมพ์บทความเมื่อต้นเดือนมกราคม ทุกคนต่างมองว่า Engram เป็นรากฐานทางสถาปัตยกรรมของ V4 และเฝ้ารอคอย
จนกระทั่ง V4 เปิดตัว ปฏิกิริยาแรกของทุกคนคือการค้นหาคำว่า “Engram” ในบทความ แต่น่าเสียดายที่ไม่พบอะไรเลย

ผู้ใช้อินเทอร์เน็ตจำนวนมากถึงกับคิดว่า V4 ที่ไม่มี Engram นั้นไม่สมบูรณ์

การไม่มี Engram อาจกลายเป็นความเสียใจครั้งใหญ่ที่สุดของ DeepSeek V4
อย่างไรก็ตาม Engram ไม่ได้หายไปไหน ต่อมา มีบทความที่น่าสนใจสามชิ้นปรากฏขึ้นต่อเนื่องกัน:
- เวอร์ชัน CXL Memory Pooling: ปรับใช้ Engram ในพูลหน่วยความจำ CXL ที่ใช้ร่วมกันระหว่างเครื่องหลายเครื่อง แก้ปัญหาการจัดเก็บข้อมูลเมื่อปรับใช้โมเดลขนาดใหญ่บนหลายเครื่อง
- การทดลอง Hot-Tier แบบไม่มีการชนกัน: ทดสอบเชิงประจักษ์เกี่ยวกับการปรับปรุง Multi-Head Hash ของ Engram และพิสูจน์ว่าแนวทางการปรับปรุงบางอย่างที่ดูสมเหตุสมผลนั้นไม่ถูกต้อง
- Visual Tiny Engram: ทีม AutoArk ย้าย Engram จากโดเมนข้อความไปยังโมดอลภาพ ขยายขอบเขตการประยุกต์ใช้
ดังนั้น แม้ว่า V4 จะไม่ได้รวม Engram โดยตรง แต่แนวคิด การสำรวจ และการประยุกต์ใช้ในภายหลังได้เริ่มต้นขึ้นอย่างเงียบๆ เพื่อวางรากฐานที่มั่นคงสำหรับโมเดลรุ่นถัดไป
Engram คืออะไรกันแน่
ย้อนเวลากลับไปวันที่ 12 มกราคม 2026
วันนั้น DeepSeek ร่วมกับมหาวิทยาลัยปักกิ่ง เผยแพร่บทความยาว 33 หน้าเรื่อง “Conditional Memory via Scalable Lookup” ผู้เขียนคนแรกคือ Cheng Xin นักศึกษาปริญญาเอกจากปักกิ่งที่เคยมีชื่อใน V3 ผู้เขียนคนสุดท้ายคือ Liang Wenfeng

ก่อนอื่น ขอสรุปแบบรวดเร็วหนึ่งประโยค: Engram คือโมดูลค้นหาความรู้ดั้งเดิมที่เพิ่มเข้าไปใน Transformer สิ่งที่ค้นหาได้ก็ไม่จำเป็นต้องคำนวณอีก
ข้อสังเกตหลักของทีมวิจัยคือ การสร้างแบบจำลองภาษา (Language Modeling) จริงๆ แล้วประกอบด้วยงานสองประเภทที่มีลักษณะแตกต่างกันโดยสิ้นเชิง: งานหนึ่งคือการอนุมานแบบผสมผสานที่ต้องการการคำนวณเชิงลึกแบบไดนามิก อีกงานหนึ่งคือการดึงความรู้คงที่
ปัญหาที่ผ่านมาคือ Transformer ผสมงานทั้งสองประเภทนี้เข้าด้วยกัน เมื่อโมเดลระบุเอนทิตีหนึ่ง ต้องใช้เลเยอร์ Attention และ Feed-Forward Network หลายชั้นเพื่อประกอบคุณลักษณะทีละชั้น
ในบทความยกตัวอย่าง: “Diana, Princess of Wales” โมเดลต้องผ่าน 6 ชั้นจึงจะระบุได้สำเร็จ
สองสามชั้นแรกยังคงสับสนกับสถานะกลาง เช่น “Wales เป็นภูมิภาคหนึ่งของอังกฤษ” “Princess of Wales เป็นตำแหน่งบางอย่าง” จนกระทั่งชั้นสุดท้ายถึงรู้ว่านี่คือเจ้าหญิงไดอาน่า
งาน “สร้างตารางค้นหาคงที่ขึ้นมาใหม่ด้วยการคำนวณรันไทม์ที่มีราคาแพง” นี้ แท้จริงแล้วสามารถให้โครงข่ายลึกไปดำเนินการอนุมานระดับสูงกว่าได้
สำหรับสิ่งนี้ แนวคิดของ Engram ตรงไปตรงมามาก: เนื่องจากโมเดล N-gram แบบคลาสสิกสามารถจับการพึ่งพาเฉพาะที่เหล่านี้ด้วยความซับซ้อนของเวลา O(1) ก็ให้ฝังความสามารถนี้เข้าไปใน Transformer โดยตรง
เปรียบเสมือนเวลาคุณทำโจทย์คณิตศาสตร์ สูตรที่ใช้บ่อยไม่จำเป็นต้องพิสูจน์ตั้งแต่ต้นทุกครั้ง แค่เปิดตารางแล้วแทนค่าเข้าไป Transformer ก่อนหน้านี้ไม่มีตารางนี้ จึงต้องเริ่มพิสูจน์จากสัจพจน์ทุกข้อ Engram เปรียบเสมือนการส่งมอบตารางนี้ให้กับโมเดลโดยตรง
วิธีการเฉพาะคือ ระหว่างชั้นที่ 2 และชั้นที่ 15 ของ Transformer ให้แทรกโมดูล Engram หนึ่งโมดูล
อินพุตของแต่ละตำแหน่งจะกระตุ้นการค้นหาแบบแฮช แมป N-gram ที่ประกอบด้วย token ปัจจุบันและ token ก่อนหน้าสองสามตัวไปยังตาราง Embedding ขนาดใหญ่ และดึงเวกเตอร์ที่สอดคล้องกันออกมาโดยตรง
กลไก Gating ช่วยให้แน่ใจว่าเมื่อเนื้อหาที่ค้นหาไม่ตรงกับบริบทปัจจุบัน จะถูกปิดกั้นโดยอัตโนมัติ ตัวอย่างเช่น “จาง” เป็นนามสกุลทั่วไป แต่เมื่อ “จาง จ้ง จิ่ง” สามตัวรวมกัน จะกลายเป็นเอนทิตีบุคคลในประวัติศาสตร์ที่ตายตัว กลไก Gating มีหน้าที่识别ความแตกต่างนี้
ตำแหน่งของ Engram คือเส้นทาง Sparse อีกเส้นทางหนึ่งนอกเหนือจาก MoE MoE ทำให้การคำนวณเป็น Sparse โดยเปิดใช้งานเฉพาะผู้เชี่ยวชาญบางส่วน ในขณะที่ Engram ทำให้การจัดเก็บเป็น Sparse โดยค้นหาเฉพาะบางรายการ ทั้งสองเสริมกันและไม่ขัดแย้งกัน

การทดลองที่สำคัญที่สุดในบทความคือ ภายใต้เงื่อนไขพารามิเตอร์รวมคงที่และพารามิเตอร์ที่เปิดใช้งานต่อ token คงที่ ให้ผู้เชี่ยวชาญ MoE และความจำ Engram แข่งขันงบประมาณ และในที่สุดก็ได้เส้นโค้งรูปตัว U

MoE บริสุทธิ์ไม่ใช่วิธีแก้ปัญหาที่ดีที่สุด เมื่อประมาณ 20% ถึง 25% ของพารามิเตอร์ Sparse ถูกจัดสรรให้กับ Engram ค่า Loss ของโมเดลถึงจุดต่ำสุด
ตามคำแนะนำของเส้นโค้งนี้ ทีมวิจัยขยาย Engram ไปยัง 27B พารามิเตอร์เพื่อตรวจสอบ พารามิเตอร์ที่เปิดใช้งานคือ 3.8B ฝึกด้วย 262B tokens และจัดเรียงอย่างเคร่งครัดกับเกณฑ์พื้นฐาน MoE-27B
ผลลัพธ์ การปรับปรุงงานที่เน้นความรู้เป็นไปตามที่คาดหวัง (MMLU +3.4, CMMLU +4.0) แต่การปรับปรุงการอนุมานทั่วไปและโค้ดคณิตศาสตร์เกินความคาดหมาย (BBH +5.0, ARC-Challenge +3.7, HumanEval +3.0, MATH +2.4) ในสถานการณ์บริบทยาว ผลลัพธ์ยิ่งน่าทึ่ง Multi-Query NIAH เพิ่มขึ้นจาก 84.2% เป็น 97.0%

แล้วทำไมโมดูลความจำถึงช่วยเพิ่มความสามารถในการอนุมานได้ล่ะ?
การวิเคราะห์ LogitLens และ CKA ให้คำตอบ: การแสดงผลของชั้นที่ 5 ของ Engram-27B คล้ายคลึงกับการแสดงผลของชั้นที่ 12 ของเกณฑ์พื้นฐาน MoE มากที่สุด
Engram ปลดปล่อยชั้นต้นๆ ของโมเดลจากงานหนัก “การสร้างความรู้คงที่ขึ้นมาใหม่” ความลึกของโครงข่ายส่วนนี้ถูกปลดปล่อยเพื่อใช้ในการอนุมานที่ซับซ้อนยิ่งขึ้น Engram ไม่เพียงเพิ่มความจำ一块 แต่ทำให้โครงข่ายลึกขึ้นโดยอ้อม

ในการใช้งานทางวิศวกรรม บทความปรับใช้ตาราง Engram ขนาด 1 แสนล้านพารามิเตอร์ทั้งหมดใน host DRAM เมื่อรันการอนุมานบน H800 การสูญเสียปริมาณงานของ 8B-Dense เพียง 2.8%
得益于 Engram 索引的确定性——它只取决于输入的 token 序列,因此完全可以提前计算,并通过 CPU 异步预取与 GPU 计算重叠来实现。
可以说,这个模块天生就不依赖 HBM。只可惜,如今 V4 已经到来,Engram 却缺席了。
没在 V4,但在其他地方
发明者将它搁置一旁,但探索之路并未停止。在三个月的时间里,至少出现了三个值得关注的工作。
把 Engram 塞进 CXL 内存池
3 月 10 日,北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。

他们并未修改 Engram 本身,而是回答了一个更偏工程的问题:如果 Engram 真的成为下一代标配,它的内存该放在哪里?
答案是 CXL 内存池化。GPU HBM 放置计算权重,本地 DRAM 作为二级缓存,CXL 池作为三级缓存。8 台服务器共享一个 4TB 的内存池,采用 XConn XC50256 交换芯片构建拓扑,带宽为 512GB/s。
整个方案集成到了 SGLang 中,并实现了预取与计算的重叠。最终,端到端吞吐损失小于 5%。Engram 论文中那句“将 1000 亿嵌入表卸载到 DRAM”的轻描淡写,被他们通过 27B 和 40B 两个规模的真实测试验证了。
结论很清晰:Engram 这种确定性寻址、可预取的负载,几乎是为 CXL 量身定做的。
一个反直觉的实验
Engram 论文上线后的第 11 天,1 月 23 日,一位名叫 TaoLin 的研究者以单作者身份发布了《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》。

他试图验证一个看似明显的优化点:Engram 使用多头哈希查表时会产生冲突。如果使用 Minimal Perfect Hash Function 彻底消除高频 N-gram 的冲突,模型是否会更优?
他设计了 Engram-Nine,将记忆分为无冲突的“热层”和保留多头哈希的“冷层”。
结果却反直觉。在严格的 iso-parameter 控制下,无冲突设计并未稳定地提升验证 loss。
route-stratified 评估还发现,在训练初期,热路径(高频)的 loss 更低,但到了训练后期,冷路径反而超过了热路径。
一个看似明显的优化方向,被一个真正动手做实验的人证伪了。
把 Engram 推到视觉(AutoArk / Tiny Engram)
GitHub 上一个名为 AutoArk 的团队开发了 Tiny Engram。

在基于 Qwen-3 完整复现了文本 Engram 之后,他们做了一件论文里没有做过的事:将 Engram 迁移到了 Stable Diffusion 上。
视觉 patch 经过分层编码,底层捕获纹理,中层捕获部件,高层捕获风格,然后将整套信息丢进哈希查找表中。
与LoRA相比,在实现同等效果的前提下,Engram所需的额外参数仅为LoRA的15%至30%。当连续注入多个新概念时,LoRA会出现明显的概念退化现象,而Engram则不会受到这种影响。
Engram最初是为文本场景设计的。AutoArk则相当于撞开了这扇大门——只要模态能够离散化、能够被哈希处理,Engram都可以将其纳入应用范围。
在过去的三个月里,围绕Engram这条技术路线,发明者最为沉默,而跟进者各自迈出了自己的步伐。
一个团队为其解决了多机内存层级的问题;一位独立研究者证伪了一个看似显而易见的优化方向;还有一个开源团队将其推广到了视觉领域。

而deepseek-ai/Engram这个仓库,最后一次提交记录仍停留在1月14日。
One more thing
Engram论文的摘要结尾处写道:
我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

看来,这个“下一代”恐怕要等到V5了,难道会是V4.1?
参考链接
[1]https://arxiv.org/pdf/2601.07372
[2]https://arxiv.org/pdf/2603.10087
[3]https://arxiv.org/pdf/2601.16531
🔹 谁会代表2026年的AI?
龙虾爆火,带动了一波Agent及其衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许远不止这些。
如果你正在参与或见证这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标科技前沿进展每日见
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33082
