Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。

为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了一套可执行程序。通过一种新颖的二维注意力头设计,它将大模型处理长序列精确计算的效率提升至指数级,甚至在普通CPU上也能实现每秒超过3万Token的流式输出。

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

在Transformer内嵌原生计算机

尽管最先进的大模型已在诸多复杂任务上取得突破,但在处理需要精确、多步骤计算的长上下文问题时,其能力仍有明显短板。

行业目前主要有两种弥补方案:
1. 工具调用:让模型生成脚本,交由外部解释器执行后返回结果。
2. 智能体调度:通过外部状态机拆分任务,循环调用模型。

这两种方式的本质都是为模型添加“外挂”,将计算能力外包。而标准Transformer的自回归解码机制,因其计算代价随序列长度线性增长的特性,进一步加剧了长程精确计算的困难。

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

Percepta团队的研究跳出了这一框架,直接让Transformer本身成为一台计算机

首先,他们在Transformer的权重中实现了一套现代化RAM计算机与WebAssembly解释器。WebAssembly是一种高效、稳定的底层指令集,可将C/C++等语言编写的代码编译成模型可识别的Token指令序列。

这意味着,任何标准化的程序都能在模型内部直接运行。例如,计算“3+5”时,模型会先生成对应的程序指令:

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

随后切换到快速解码模式,在Transformer内部逐步执行该程序,并将每一步的执行过程以Token流的形式实时输出:

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

计算结果直接在模型的输出流中生成,无需等待外部工具,且整个过程完全透明,实现了计算的可验证性。

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

二维注意力头与效率的指数级提升

为了提升内置计算机的运行效率,研究团队设计了创新的二维注意力头

在该设计中,每个历史Token的Key向量是二维的,而当前步骤的Query向量可视为二维平面上的一个方向。于是,注意力查询(寻找与Query最匹配的Key)便转化为一个计算几何问题:在二维平面的凸包上,沿Query方向寻找最远的点

借助凸包数据结构,模型可以在生成Token时动态维护历史Key的凸包,使每一步注意力查询的复杂度从O(n)降至O(log n)。基于此原理设计的 HullKVCache,在普通CPU上实现了每秒31037 Token的吞吐量,完成约9000行指令序列仅需1.3秒,效率较传统KV缓存提升了近200倍

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

该设计完全基于标准的PyTorch Transformer实现,无需定制内核或稀疏掩码,仅需简单配置维度与注意力头数即可应用。

实际验证:最难数独100%精确求解

研究团队选取了两个典型的长程精确计算任务来验证该方法的有效性:10×10最小代价完美匹配和公认的世界最难数独Arto Inkala

在第一个任务中,模型内部执行匈牙利算法,以自回归方式清晰生成从行分配到增广路径查找的每一步计算轨迹,最终精准求解最优方案。整个过程在CPU上达到每秒33583 Token、7301行指令的输出效率。

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

在求解Arto Inkala数独(仅21个提示数)时,模型内部运行了一个完全正确的编译后求解器。从约束传播填充到深度优先搜索中的尝试、验证、回溯,每一步都以可读的日志行形式自回归生成。最终,模型在3分钟内实现了100%的精确求解

Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

研究团队

这项工作由Christos Tzamos(麻省理工博士、雅典大学计算机科学副教授、Percepta创始研究员)领衔,与Percepta的其他研究者共同完成。Percepta是General Catalyst旗下的AI转型公司,团队成员来自Meta FAIR、MIT、Google等机构。

参考链接:
[1] https://x.com/ChristosTzamos/status/2031845134577406426
[2] https://www.percepta.ai/blog/can-llms-be-computers


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26120

(0)
上一篇 2026年3月17日 下午2:29
下一篇 2026年3月17日 下午9:07

相关推荐

  • FlowPrefill:突破LLM推理瓶颈,算子级抢占实现5.6倍吞吐提升与严格SLO保障

    关键词: LLM 服务系统 、预填充、 队头阻塞 、 _ SLO 感知调度_ 、 算子级抢占 、事件驱动调度 当我们正在使用一个智能聊天机器人,输入了一个简短的问题,满怀期待地等待回复。然而, 由于服务器正在处理一个长篇文档总结任务,请求被堵在后面,迟迟得不到响应,眼睁睁看着“正在输入”的提示转个不停 。这种体验像极了早高峰堵车——一辆大货车慢悠悠地走在前面…

    2026年2月25日
    33200
  • Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

    长上下文推理新突破:Kimi提出PrFaaS范式,实现跨机房调度 将长上下文能力做到极致的Kimi,近日联合清华大学团队,在大模型推理架构上取得关键进展。 他们提出了一种名为 Prefill-as-a-Service(PrFaaS) 的全新范式,即“预填充即服务”。其核心突破在于,首次实现了 KV Cache 能够跨数据中心进行传输,从而将大模型推理中的 P…

    2天前
    20100
  • 让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

    当前主流的搜索智能体(Agent)普遍存在一个效率瓶颈:其执行流程是严格串行的。以广泛采用的ReAct框架为例,其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下,模型在等待搜索引擎返回结果时完全处于空闲状态,造成了大量的时间浪费。多轮交互中,延迟不断累积,严重影响了用户体验。 研究团队通过分析发现,在多跳问答等复杂任务中,这种“干等”的串行…

    2026年3月1日
    18600
  • SGLang发布迷你版:5千行代码实现LLM推理核心,性能媲美完整版

    SGLang团队近日发布了mini-SGLang,将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术,包括重叠调度、FlashAttention-3、基数缓存等,在在线服务场景下的性能表现与完整版几乎无异。 为何推出迷你版 许多开发者希望深入理解现代大语言模型推理的内部机制,但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…

    2025年12月20日
    71200
  • LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破

    无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…

    2026年3月10日
    24400