MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

2026年3月21日上午11:47 • 大模型工程 • 阅读 584

在Transformer内部构建计算机：突破大模型计算瓶颈

引言
近日，一项来自MIT博士Christos Tzamos及其团队的研究引发了AI社区的广泛关注。该研究通过一种创新的方法，将一台完整的WebAssembly解释器直接编码到Transformer模型的权重之中，使大语言模型（LLM）获得了内在的、确定性的计算能力。这项突破旨在从根本上解决LLM在精确计算（如基础算术）方面的长期弱点。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

核心突破：从概率预测到确定性执行

传统上，Transformer模型基于概率来预测下一个词元（Token），并不擅长执行需要精确步骤的算法任务。研究团队另辟蹊径，并非通过外挂工具或调用外部代码，而是将计算过程本身转化为Transformer可以自回归生成的一种“只增不减的轨迹”。

关键思路：将任意C代码编译为WebAssembly字节码，并将其作为训练数据。模型学习生成代表虚拟机状态的词元序列，包括指令指针、内存操作和算术运算等。在推理时，模型的前向传播过程就等价于在内部执行这个虚拟机程序。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

技术实现：指数级加速的注意力机制

要让Transformer高效执行程序，必须克服标准注意力机制速度慢的瓶颈。为此，团队发明了一种新的解码路径。

固定回看：他们将计算过程设计为一种轨迹，其中每一步生成新词元时，只需回看（Attention）固定且少量的先前位置（例如，两个位置），而非整个上下文。这模拟了计算机读取特定寄存器或内存地址的行为。
极速生成：得益于这种优化，系统在CPU上能以超过每秒30,000个词元的速度流式输出计算结果，远超传统LLM的解码速度。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

能力展示：洗刷“算数耻辱”

这项技术使模型获得了前所未有的可靠计算能力：
* 复杂算法：成功运行了需要数百万步的复杂程序，例如解决“世界最难数独”并达到100%准确率。
* 精确计算：从根本上解决了类似“9.11和9.9哪个大”的数值比较问题，无需依赖外部计算器。
* 通用性：理论上可以执行任何能被编译为WASM的代码，为在LLM内部进行数值计算、物理模拟等任务开辟了道路。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

范式意义：混合架构的新可能

这项研究揭示了一种新型混合LLM架构的潜力：
* 神经网络：负责高级推理、理解和任务规划。
* 嵌入式解释器：作为模型内在的“计算引擎”，负责高精度、确定性的算法执行。

这种架构有望同时兼顾深度推理能力和计算机级的计算可靠性，突破当前LLM的能力边界。社区专家认为，这可能是Transformer范式的一次重要演进。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

背景：LLM的计算之殇

长期以来，尽管LLM能解决复杂的推理问题，但在基础算术和精确算法执行上表现不佳。这是因为Transformer本质是为处理语言序列的统计规律而设计，并非为精确的符号操作或数值计算而构建。行业普遍的解决方案是“工具调用”，但这会打断推理流并引入延迟与安全风险。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

工作原理：将计算转化为轨迹

理解该系统的关键在于重新思考“计算”的表示形式。研究团队将计算视为一条只增不减的轨迹。

类比：想象一个笔记本，计算的每一步都写在新的一行。写下的内容无法更改，笔记本只会越来越厚。这类似于自回归Transformer生成词元的过程。

实例：统计一个句子中动词数量的奇偶性。生成轨迹时，每一步只需要关注两个位置：当前输入的词（判断是否为动词）和轨迹中前一个词元（获取当前的奇偶状态）。无论句子多长，每一步的回看次数是固定的。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

许多算法都可以被转化为这种“每一步只需读取少量固定历史位置”的轨迹形式。在该系统中，模型生成的词元序列精确对应了虚拟机的状态变化（指令、内存、栈、输出），通过有限的回看来决定下一步操作，其工作原理在概念上近似于图灵机。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

链接：https://www.percepta.ai/blog/can-llms-be-computers
这项研究展示了在Transformer内部实现通用计算的可能性，为提升大模型的基础能力提供了全新的技术路径。

但随着程序执行轨迹的延长，标准的 Transformer 解码过程仍会带来显著的计算开销。

为此，Christos Tzamos 等人提出了一种快速解码路径，有效克服了这一瓶颈。而其中关键的实现条件，正是对注意力头施加的二维约束。

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

这项工作的核心价值，并非单纯提升模型的算术能力，而在于能够将完整的“系统”能力直接嵌入模型内部。

当 Transformer 开始在其内部运行真正的程序时，大语言模型便不再仅仅是一个概率模型，而更像是一个由推理系统与计算引擎构成的混合体。

AI 正逐渐演变为一套可执行、可组合、可扩展的完整系统。

这或许正是下一代人工智能的真正方向。

参考资料
– https://x.com/mtrainier2020/status/2033640996337291482
– https://www.percepta.ai/blog/can-llms-be-computers

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/26832

AI突破 Transformer WASM解释器大模型计算注意力机制

赞 (0)

0 0

MoGraphGPT：零代码构建复杂交互场景，自然语言+涂鸦让创意可视化

上一篇 2026年3月21日上午12:09

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

下一篇 2026年3月21日上午11:48

大模型工程

构建可自我进化的Agentic RAG系统：从医疗健康领域实践到通用设计模式

Agentic RAG 系统可以被视为一个高维度的决策空间，其中每个维度都对应一项关键设计选择，例如提示工程、智能体协同机制或检索策略。手动调整这些维度以找到最优组合不仅极其困难，而且系统上线后遇到的未知数据也常常会打破在测试环境中有效的配置。因此，一个更优的解决方案是让系统具备“自我优化”的能力。一条典型的、可自我进化的 Agentic RAG 流水线遵…

2025年11月19日
543000
大模型工程

GitHub开源30+真实OpenClaw应用案例：从信息聚合到自动化运维的实战指南

最近在 GitHub 发现了一个有趣的仓库，专门收集 OpenClaw 的真实应用案例。许多用户在安装 OpenClaw 后，往往会陷入一个循环：不断添加各种 Skill，在 ClawHub 中寻找新功能，今天安装天气查询，明天添加股票分析，后天又集成翻译助手。然而，安装了大量 Skill 后，日常使用却仍停留在信息搜索和简单记录上。技能装了一百个，生活…

2026年2月22日
1.2K000
大模型工程

企业推进大模型落地的关键工程与核心指标

企业推进大模型落地，需统筹五大关键工程：算力工程是基础设施，关注规模、效率与服务；应用工程是价值门户，衡量业务覆盖与成效；模型工程是技术核心，驱动算法效能与迭代；知识工程是企业智库，负责知识的沉淀与复用；数据工程是循环血脉，确保数据的贯通与消费。五者协同，方能实现真正的业务智能化。

2025年10月2日
823000
大模型工程

构建实时语音驱动RAG系统：从架构设计到生产部署的全栈指南

多数团队都在谈论构建对话代理，但真正将其打磨到可用于生产环境却充满挑战。语音系统尤为严苛：延迟会立刻显现，检索失误会破坏信任，而语音、语言与响应之间的任何断层，都会让用户体验大打折扣。本文将带你构建一个“声音原生”的对话代理，实现端到端自然流畅的交互。你将了解语音如何在实时流程中依次经过转写、推理、检索与合成，以及各层如何协同工作以保持体验的连贯性。阅读本部…

2025年12月30日
439000
大模型工程

具身智能新纪元：LLMs与世界模型融合如何重塑物理世界交互

本文全面探讨具身智能（Embodied AI）的基础与前沿进展，核心聚焦大语言模型/ 多模态大模型与世界模型（WMs ）对具身智能的赋能作用 ——LLMs/MLLMs 通过语义推理和任务分解强化具身认知，WMs 通过构建外部世界的内部表征和未来预测支撑物理合规交互，二者融合形成的MLLM-WM 联合架构成为突破复杂物理世界任务的关键方向。具身智…

2025年12月23日
577000