MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

2小时前 • 大模型工程 • 阅读 14

在Transformer内部构建计算机：突破大模型计算瓶颈

引言
近日，一项来自MIT博士Christos Tzamos及其团队的研究引发了AI社区的广泛关注。该研究通过一种创新的方法，将一台完整的WebAssembly解释器直接编码到Transformer模型的权重之中，使大语言模型（LLM）获得了内在的、确定性的计算能力。这项突破旨在从根本上解决LLM在精确计算（如基础算术）方面的长期弱点。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

核心突破：从概率预测到确定性执行

传统上，Transformer模型基于概率来预测下一个词元（Token），并不擅长执行需要精确步骤的算法任务。研究团队另辟蹊径，并非通过外挂工具或调用外部代码，而是将计算过程本身转化为Transformer可以自回归生成的一种“只增不减的轨迹”。

关键思路：将任意C代码编译为WebAssembly字节码，并将其作为训练数据。模型学习生成代表虚拟机状态的词元序列，包括指令指针、内存操作和算术运算等。在推理时，模型的前向传播过程就等价于在内部执行这个虚拟机程序。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

技术实现：指数级加速的注意力机制

要让Transformer高效执行程序，必须克服标准注意力机制速度慢的瓶颈。为此，团队发明了一种新的解码路径。

固定回看：他们将计算过程设计为一种轨迹，其中每一步生成新词元时，只需回看（Attention）固定且少量的先前位置（例如，两个位置），而非整个上下文。这模拟了计算机读取特定寄存器或内存地址的行为。
极速生成：得益于这种优化，系统在CPU上能以超过每秒30,000个词元的速度流式输出计算结果，远超传统LLM的解码速度。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

能力展示：洗刷“算数耻辱”

这项技术使模型获得了前所未有的可靠计算能力：
* 复杂算法：成功运行了需要数百万步的复杂程序，例如解决“世界最难数独”并达到100%准确率。
* 精确计算：从根本上解决了类似“9.11和9.9哪个大”的数值比较问题，无需依赖外部计算器。
* 通用性：理论上可以执行任何能被编译为WASM的代码，为在LLM内部进行数值计算、物理模拟等任务开辟了道路。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

范式意义：混合架构的新可能

这项研究揭示了一种新型混合LLM架构的潜力：
* 神经网络：负责高级推理、理解和任务规划。
* 嵌入式解释器：作为模型内在的“计算引擎”，负责高精度、确定性的算法执行。

这种架构有望同时兼顾深度推理能力和计算机级的计算可靠性，突破当前LLM的能力边界。社区专家认为，这可能是Transformer范式的一次重要演进。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

背景：LLM的计算之殇

长期以来，尽管LLM能解决复杂的推理问题，但在基础算术和精确算法执行上表现不佳。这是因为Transformer本质是为处理语言序列的统计规律而设计，并非为精确的符号操作或数值计算而构建。行业普遍的解决方案是“工具调用”，但这会打断推理流并引入延迟与安全风险。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

工作原理：将计算转化为轨迹

理解该系统的关键在于重新思考“计算”的表示形式。研究团队将计算视为一条只增不减的轨迹。

类比：想象一个笔记本，计算的每一步都写在新的一行。写下的内容无法更改，笔记本只会越来越厚。这类似于自回归Transformer生成词元的过程。

实例：统计一个句子中动词数量的奇偶性。生成轨迹时，每一步只需要关注两个位置：当前输入的词（判断是否为动词）和轨迹中前一个词元（获取当前的奇偶状态）。无论句子多长，每一步的回看次数是固定的。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

许多算法都可以被转化为这种“每一步只需读取少量固定历史位置”的轨迹形式。在该系统中，模型生成的词元序列精确对应了虚拟机的状态变化（指令、内存、栈、输出），通过有限的回看来决定下一步操作，其工作原理在概念上近似于图灵机。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

链接：https://www.percepta.ai/blog/can-llms-be-computers
这项研究展示了在Transformer内部实现通用计算的可能性，为提升大模型的基础能力提供了全新的技术路径。

但随着程序执行轨迹的延长，标准的 Transformer 解码过程仍会带来显著的计算开销。

为此，Christos Tzamos 等人提出了一种快速解码路径，有效克服了这一瓶颈。而其中关键的实现条件，正是对注意力头施加的二维约束。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

这项工作的核心价值，并非单纯提升模型的算术能力，而在于能够将完整的“系统”能力直接嵌入模型内部。

当 Transformer 开始在其内部运行真正的程序时，大语言模型便不再仅仅是一个概率模型，而更像是一个由推理系统与计算引擎构成的混合体。

AI 正逐渐演变为一套可执行、可组合、可扩展的完整系统。

这或许正是下一代人工智能的真正方向。

参考资料
– https://x.com/mtrainier2020/status/2033640996337291482
– https://www.percepta.ai/blog/can-llms-be-computers

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/26832

AI突破 Transformer WASM解释器大模型计算注意力机制

赞 (0)

0 0

MoGraphGPT：零代码构建复杂交互场景，自然语言+涂鸦让创意可视化

上一篇 14小时前

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

下一篇 2小时前

大模型工程

跨越模态边界：构建真正理解图像、表格与文本的多模态RAG系统

构建多模态 RAG 系统的终极指南三个月前，我们新开发的 AI 应用在诸多看似简单的问题上频频“翻车”。问题根源并非 AI 不够智能或数据不足，而是因为答案蕴含在一张图片里，而当时的系统仅能处理文本。这一时刻迫使我直面一个在构建 RAG 系统时长期回避的核心问题：我们花费数年时间教 AI “阅读”文字，却忽略了人类同样通过图像、表格、公式和流程图来“表达…

2025年12月16日
289000
智算新纪元：2026超万卡集群技术演进与产业协同全景解析

自ChatGPT发布以来，全球科技产业迎来大模型创新浪潮，数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型，各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间，大模型参数量从万亿级向十万亿级跨越，多模态、超长序列、实时交互等场景的爆发式增长，推动智算基础设施迎来代际升级，超万卡集群已从“军备竞赛标配”转变…

大模型工程 2026年2月23日
340000
大模型工程

英伟达开源NitroGen：通用游戏AI模型，跨千款游戏零样本操作

这流畅的游戏动作，堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、踩灵魂一气呵成，令人惊叹。最令人震撼的是，上述操作完全由AI完成。与传统的单一游戏自动化脚本不同，这是一个完整的通用大模型，能够玩遍市面上几乎全部的游戏类型。这就是来自英伟达的最新开源基础模型——NitroGen。该模型的训练目标是玩1000款以上的游戏，无论是RPG、平台跳…

2025年12月21日
213000
大模型工程

打破库依赖与93%峰值效率！Intel提出MLIR驱动的编译器自动生成NanoKernel实现高性能矩阵乘法内核

关键词： MLIR 、Nanokernels 、 Microkernels 、Matmul、Vectorization、Compiler 超微内核（Nanokernel）指寄存器级别的最小计算单元，专为特定硬件指令集优化，可作为可组合的、目标无关的编译器 IR 到目标特定指令的 kernel。论文标题：Library Liberation: Compet…

2026年1月8日
268000
大模型工程

AI编程革命：当代码成本归零，8大模式重构工程师工作流

当代码成本归零：8大模式重构工程师工作流硅谷知名开发者、Datasette创始人Simon Willison近日发布了一份面向专业工程师的实践指南，系统阐述了如何利用Claude Code等AI编程工具提升效率。他总结了八大实战模式，旨在重构程序员在AI时代的工作方式。代码成本的数量级跃迁 Simon Willison在开篇指出一个根本性转变：编写代码的…

5天前
169000