Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍
当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。
为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。

该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了一套可执行程序。通过一种新颖的二维注意力头设计,它将大模型处理长序列精确计算的效率提升至指数级,甚至在普通CPU上也能实现每秒超过3万Token的流式输出。

在Transformer内嵌原生计算机
尽管最先进的大模型已在诸多复杂任务上取得突破,但在处理需要精确、多步骤计算的长上下文问题时,其能力仍有明显短板。
行业目前主要有两种弥补方案:
1. 工具调用:让模型生成脚本,交由外部解释器执行后返回结果。
2. 智能体调度:通过外部状态机拆分任务,循环调用模型。
这两种方式的本质都是为模型添加“外挂”,将计算能力外包。而标准Transformer的自回归解码机制,因其计算代价随序列长度线性增长的特性,进一步加剧了长程精确计算的困难。

Percepta团队的研究跳出了这一框架,直接让Transformer本身成为一台计算机。
首先,他们在Transformer的权重中实现了一套现代化RAM计算机与WebAssembly解释器。WebAssembly是一种高效、稳定的底层指令集,可将C/C++等语言编写的代码编译成模型可识别的Token指令序列。
这意味着,任何标准化的程序都能在模型内部直接运行。例如,计算“3+5”时,模型会先生成对应的程序指令:

随后切换到快速解码模式,在Transformer内部逐步执行该程序,并将每一步的执行过程以Token流的形式实时输出:

计算结果直接在模型的输出流中生成,无需等待外部工具,且整个过程完全透明,实现了计算的可验证性。

二维注意力头与效率的指数级提升
为了提升内置计算机的运行效率,研究团队设计了创新的二维注意力头。
在该设计中,每个历史Token的Key向量是二维的,而当前步骤的Query向量可视为二维平面上的一个方向。于是,注意力查询(寻找与Query最匹配的Key)便转化为一个计算几何问题:在二维平面的凸包上,沿Query方向寻找最远的点。
借助凸包数据结构,模型可以在生成Token时动态维护历史Key的凸包,使每一步注意力查询的复杂度从O(n)降至O(log n)。基于此原理设计的 HullKVCache,在普通CPU上实现了每秒31037 Token的吞吐量,完成约9000行指令序列仅需1.3秒,效率较传统KV缓存提升了近200倍。

该设计完全基于标准的PyTorch Transformer实现,无需定制内核或稀疏掩码,仅需简单配置维度与注意力头数即可应用。
实际验证:最难数独100%精确求解
研究团队选取了两个典型的长程精确计算任务来验证该方法的有效性:10×10最小代价完美匹配和公认的世界最难数独Arto Inkala。
在第一个任务中,模型内部执行匈牙利算法,以自回归方式清晰生成从行分配到增广路径查找的每一步计算轨迹,最终精准求解最优方案。整个过程在CPU上达到每秒33583 Token、7301行指令的输出效率。

在求解Arto Inkala数独(仅21个提示数)时,模型内部运行了一个完全正确的编译后求解器。从约束传播填充到深度优先搜索中的尝试、验证、回溯,每一步都以可读的日志行形式自回归生成。最终,模型在3分钟内实现了100%的精确求解。

研究团队
这项工作由Christos Tzamos(麻省理工博士、雅典大学计算机科学副教授、Percepta创始研究员)领衔,与Percepta的其他研究者共同完成。Percepta是General Catalyst旗下的AI转型公司,团队成员来自Meta FAIR、MIT、Google等机构。
参考链接:
[1] https://x.com/ChristosTzamos/status/2031845134577406426
[2] https://www.percepta.ai/blog/can-llms-be-computers
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26120


