Transformer优化
-
DeepSeek发布Engram条件记忆架构:MoE模型性能提升新路径,实习生主导突破性研究
这一记忆架构有望成为新的Scaling路径。 智东西1月13日报道,昨晚,DeepSeek再次开源,并发布一篇新论文。此次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…