MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

Transformer内部构建计算机:突破大模型计算瓶颈


引言
近日,一项来自MIT博士Christos Tzamos及其团队的研究引发了AI社区的广泛关注。该研究通过一种创新的方法,将一台完整的WebAssembly解释器直接编码到Transformer模型的权重之中,使大语言模型(LLM)获得了内在的、确定性的计算能力。这项突破旨在从根本上解决LLM在精确计算(如基础算术)方面的长期弱点。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

核心突破:从概率预测到确定性执行

传统上,Transformer模型基于概率来预测下一个词元(Token),并不擅长执行需要精确步骤的算法任务。研究团队另辟蹊径,并非通过外挂工具或调用外部代码,而是将计算过程本身转化为Transformer可以自回归生成的一种“只增不减的轨迹”。

关键思路:将任意C代码编译为WebAssembly字节码,并将其作为训练数据。模型学习生成代表虚拟机状态的词元序列,包括指令指针、内存操作和算术运算等。在推理时,模型的前向传播过程就等价于在内部执行这个虚拟机程序。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

技术实现:指数级加速的注意力机制

要让Transformer高效执行程序,必须克服标准注意力机制速度慢的瓶颈。为此,团队发明了一种新的解码路径。

  • 固定回看:他们将计算过程设计为一种轨迹,其中每一步生成新词元时,只需回看(Attention)固定且少量的先前位置(例如,两个位置),而非整个上下文。这模拟了计算机读取特定寄存器或内存地址的行为。
  • 极速生成:得益于这种优化,系统在CPU上能以超过每秒30,000个词元的速度流式输出计算结果,远超传统LLM的解码速度。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序
MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

能力展示:洗刷“算数耻辱”

这项技术使模型获得了前所未有的可靠计算能力:
* 复杂算法:成功运行了需要数百万步的复杂程序,例如解决“世界最难数独”并达到100%准确率。
* 精确计算:从根本上解决了类似“9.11和9.9哪个大”的数值比较问题,无需依赖外部计算器。
* 通用性:理论上可以执行任何能被编译为WASM的代码,为在LLM内部进行数值计算、物理模拟等任务开辟了道路。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

范式意义:混合架构的新可能

这项研究揭示了一种新型混合LLM架构的潜力:
* 神经网络:负责高级推理、理解和任务规划。
* 嵌入式解释器:作为模型内在的“计算引擎”,负责高精度、确定性的算法执行。

这种架构有望同时兼顾深度推理能力和计算机级的计算可靠性,突破当前LLM的能力边界。社区专家认为,这可能是Transformer范式的一次重要演进。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序
MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

背景:LLM的计算之殇

长期以来,尽管LLM能解决复杂的推理问题,但在基础算术和精确算法执行上表现不佳。这是因为Transformer本质是为处理语言序列的统计规律而设计,并非为精确的符号操作或数值计算而构建。行业普遍的解决方案是“工具调用”,但这会打断推理流并引入延迟与安全风险。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序
MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

工作原理:将计算转化为轨迹

理解该系统的关键在于重新思考“计算”的表示形式。研究团队将计算视为一条只增不减的轨迹

类比:想象一个笔记本,计算的每一步都写在新的一行。写下的内容无法更改,笔记本只会越来越厚。这类似于自回归Transformer生成词元的过程。

实例:统计一个句子中动词数量的奇偶性。生成轨迹时,每一步只需要关注两个位置:当前输入的词(判断是否为动词)和轨迹中前一个词元(获取当前的奇偶状态)。无论句子多长,每一步的回看次数是固定的。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

许多算法都可以被转化为这种“每一步只需读取少量固定历史位置”的轨迹形式。在该系统中,模型生成的词元序列精确对应了虚拟机的状态变化(指令、内存、栈、输出),通过有限的回看来决定下一步操作,其工作原理在概念上近似于图灵机

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序


链接:https://www.percepta.ai/blog/can-llms-be-computers
这项研究展示了在Transformer内部实现通用计算的可能性,为提升大模型的基础能力提供了全新的技术路径。

但随着程序执行轨迹的延长,标准的 Transformer 解码过程仍会带来显著的计算开销。

为此,Christos Tzamos 等人提出了一种快速解码路径,有效克服了这一瓶颈。而其中关键的实现条件,正是对注意力头施加的二维约束。

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

这项工作的核心价值,并非单纯提升模型的算术能力,而在于能够将完整的“系统”能力直接嵌入模型内部。

当 Transformer 开始在其内部运行真正的程序时,大语言模型便不再仅仅是一个概率模型,而更像是一个由推理系统与计算引擎构成的混合体。

AI 正逐渐演变为一套可执行、可组合、可扩展的完整系统。

这或许正是下一代人工智能的真正方向。

参考资料
– https://x.com/mtrainier2020/status/2033640996337291482
– https://www.percepta.ai/blog/can-llms-be-computers

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26832

(0)
上一篇 14小时前
下一篇 2小时前

相关推荐

  • 跨越模态边界:构建真正理解图像、表格与文本的多模态RAG系统

    构建多模态 RAG 系统的终极指南 三个月前,我们新开发的 AI 应用在诸多看似简单的问题上频频“翻车”。问题根源并非 AI 不够智能或数据不足,而是因为答案蕴含在一张图片里,而当时的系统仅能处理文本。 这一时刻迫使我直面一个在构建 RAG 系统时长期回避的核心问题:我们花费数年时间教 AI “阅读”文字,却忽略了人类同样通过图像、表格、公式和流程图来“表达…

    2025年12月16日
    28900
  • 智算新纪元:2026超万卡集群技术演进与产业协同全景解析

    自ChatGPT发布以来,全球科技产业迎来大模型创新浪潮,数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型,各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间,大模型参数量从万亿级向十万亿级跨越,多模态、超长序列、实时交互等场景的爆发式增长,推动智算基础设施迎来代际升级,超万卡集群已从“军备竞赛标配”转变…

    大模型工程 2026年2月23日
    34000
  • 英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

    这流畅的游戏动作,堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、踩灵魂一气呵成,令人惊叹。 最令人震撼的是,上述操作完全由AI完成。 与传统的单一游戏自动化脚本不同,这是一个完整的通用大模型,能够玩遍市面上几乎全部的游戏类型。 这就是来自英伟达的最新开源基础模型——NitroGen。 该模型的训练目标是玩1000款以上的游戏,无论是RPG、平台跳…

    2025年12月21日
    21300
  • 打破库依赖与93%峰值效率!Intel提出MLIR驱动的编译器自动生成NanoKernel实现高性能矩阵乘法内核

    关键词: MLIR 、Nanokernels 、 Microkernels 、Matmul、Vectorization、Compiler 超微内核(Nanokernel) 指寄存器级别的最小计算单元,专为特定硬件指令集优化,可作为可组合的、目标无关的编译器 IR 到目标特定指令的 kernel。 论文标题:Library Liberation: Compet…

    2026年1月8日
    26800
  • AI编程革命:当代码成本归零,8大模式重构工程师工作流

    当代码成本归零:8大模式重构工程师工作流 硅谷知名开发者、Datasette创始人Simon Willison近日发布了一份面向专业工程师的实践指南,系统阐述了如何利用Claude Code等AI编程工具提升效率。他总结了八大实战模式,旨在重构程序员在AI时代的工作方式。 代码成本的数量级跃迁 Simon Willison在开篇指出一个根本性转变:编写代码的…

    5天前
    16900