在Transformer内部构建计算机:突破大模型计算瓶颈
引言
近日,一项来自MIT博士Christos Tzamos及其团队的研究引发了AI社区的广泛关注。该研究通过一种创新的方法,将一台完整的WebAssembly解释器直接编码到Transformer模型的权重之中,使大语言模型(LLM)获得了内在的、确定性的计算能力。这项突破旨在从根本上解决LLM在精确计算(如基础算术)方面的长期弱点。

核心突破:从概率预测到确定性执行
传统上,Transformer模型基于概率来预测下一个词元(Token),并不擅长执行需要精确步骤的算法任务。研究团队另辟蹊径,并非通过外挂工具或调用外部代码,而是将计算过程本身转化为Transformer可以自回归生成的一种“只增不减的轨迹”。
关键思路:将任意C代码编译为WebAssembly字节码,并将其作为训练数据。模型学习生成代表虚拟机状态的词元序列,包括指令指针、内存操作和算术运算等。在推理时,模型的前向传播过程就等价于在内部执行这个虚拟机程序。

技术实现:指数级加速的注意力机制
要让Transformer高效执行程序,必须克服标准注意力机制速度慢的瓶颈。为此,团队发明了一种新的解码路径。
- 固定回看:他们将计算过程设计为一种轨迹,其中每一步生成新词元时,只需回看(Attention)固定且少量的先前位置(例如,两个位置),而非整个上下文。这模拟了计算机读取特定寄存器或内存地址的行为。
- 极速生成:得益于这种优化,系统在CPU上能以超过每秒30,000个词元的速度流式输出计算结果,远超传统LLM的解码速度。


能力展示:洗刷“算数耻辱”
这项技术使模型获得了前所未有的可靠计算能力:
* 复杂算法:成功运行了需要数百万步的复杂程序,例如解决“世界最难数独”并达到100%准确率。
* 精确计算:从根本上解决了类似“9.11和9.9哪个大”的数值比较问题,无需依赖外部计算器。
* 通用性:理论上可以执行任何能被编译为WASM的代码,为在LLM内部进行数值计算、物理模拟等任务开辟了道路。

范式意义:混合架构的新可能
这项研究揭示了一种新型混合LLM架构的潜力:
* 神经网络:负责高级推理、理解和任务规划。
* 嵌入式解释器:作为模型内在的“计算引擎”,负责高精度、确定性的算法执行。
这种架构有望同时兼顾深度推理能力和计算机级的计算可靠性,突破当前LLM的能力边界。社区专家认为,这可能是Transformer范式的一次重要演进。


背景:LLM的计算之殇
长期以来,尽管LLM能解决复杂的推理问题,但在基础算术和精确算法执行上表现不佳。这是因为Transformer本质是为处理语言序列的统计规律而设计,并非为精确的符号操作或数值计算而构建。行业普遍的解决方案是“工具调用”,但这会打断推理流并引入延迟与安全风险。


工作原理:将计算转化为轨迹
理解该系统的关键在于重新思考“计算”的表示形式。研究团队将计算视为一条只增不减的轨迹。
类比:想象一个笔记本,计算的每一步都写在新的一行。写下的内容无法更改,笔记本只会越来越厚。这类似于自回归Transformer生成词元的过程。
实例:统计一个句子中动词数量的奇偶性。生成轨迹时,每一步只需要关注两个位置:当前输入的词(判断是否为动词)和轨迹中前一个词元(获取当前的奇偶状态)。无论句子多长,每一步的回看次数是固定的。

许多算法都可以被转化为这种“每一步只需读取少量固定历史位置”的轨迹形式。在该系统中,模型生成的词元序列精确对应了虚拟机的状态变化(指令、内存、栈、输出),通过有限的回看来决定下一步操作,其工作原理在概念上近似于图灵机。

链接:https://www.percepta.ai/blog/can-llms-be-computers
这项研究展示了在Transformer内部实现通用计算的可能性,为提升大模型的基础能力提供了全新的技术路径。
但随着程序执行轨迹的延长,标准的 Transformer 解码过程仍会带来显著的计算开销。
为此,Christos Tzamos 等人提出了一种快速解码路径,有效克服了这一瓶颈。而其中关键的实现条件,正是对注意力头施加的二维约束。

这项工作的核心价值,并非单纯提升模型的算术能力,而在于能够将完整的“系统”能力直接嵌入模型内部。
当 Transformer 开始在其内部运行真正的程序时,大语言模型便不再仅仅是一个概率模型,而更像是一个由推理系统与计算引擎构成的混合体。
AI 正逐渐演变为一套可执行、可组合、可扩展的完整系统。
这或许正是下一代人工智能的真正方向。
参考资料
– https://x.com/mtrainier2020/status/2033640996337291482
– https://www.percepta.ai/blog/can-llms-be-computers


关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26832


