条件记忆

大模型工程

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

这一记忆架构有望成为新的Scaling路径。智东西1月13日报道，昨晚，DeepSeek再次开源，并发布一篇新论文。此次，他们提出了一种全新的“条件记忆”机制——Engram，旨在让MoE模型在保持巨量参数的同时，更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…

2026年1月13日
99000
大模型工程

DeepSeek开源条件记忆模块：让Transformer告别“苦力活”，27B模型性能碾压MoE

DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制，旨在弥补其原生缺乏高效知识检索能力的短板。研究团队在论文结论中明确指出：条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。该研究由梁文锋署名，并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。论文不仅…

2026年1月13日
97000