记忆机制
-
从动态计算到静态查表:STEM如何重构Transformer的记忆机制
近年来,随着大语言模型规模与知识密度的不断提升,研究者开始重新思考一个更本质的问题:模型中的参数应如何被组织,才能更高效地充当“记忆”。 在标准 Transformer 的前馈网络(FFN)中,知识主要隐式存储在 up-projection 等密集矩阵里,并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效,但在参数的可寻址性、可编辑性与系统效率上存在…
近年来,随着大语言模型规模与知识密度的不断提升,研究者开始重新思考一个更本质的问题:模型中的参数应如何被组织,才能更高效地充当“记忆”。 在标准 Transformer 的前馈网络(FFN)中,知识主要隐式存储在 up-projection 等密集矩阵里,并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效,但在参数的可寻址性、可编辑性与系统效率上存在…