记忆机制

大模型工程

从动态计算到静态查表：STEM如何重构Transformer的记忆机制

近年来，随着大语言模型规模与知识密度的不断提升，研究者开始重新思考一个更本质的问题：模型中的参数应如何被组织，才能更高效地充当“记忆”。在标准 Transformer 的前馈网络（FFN）中，知识主要隐式存储在 up-projection 等密集矩阵里，并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效，但在参数的可寻址性、可编辑性与系统效率上存在…

2026年3月9日
350000