小模型突破计算瓶颈:WorldModel-Qwen实现推理中WASM代码执行

最近,开发者 bigattichouse 分享了一个有趣的实验:让 Qwen-0.6B 这样的小模型在推理过程中生成并执行 WASM 代码,从而获得确定性的计算结果。

这个项目的灵感借鉴了人类思维。在关于 AGI 与 LLM 智能的讨论中,“世界模型”的概念变得越来越重要。就像人类接球时大脑会建立物理模型一样,AI 模型也需要某种形式的世界建模能力。但对于 Qwen-0.6B 这样的超小模型,连基础数学计算都容易出错,更别说进行复杂推理了。

从思考标签到代码执行

最初的尝试是在模型中加入 <think><model> 标签,让模型先思考再生成 Python 代码:

<think>I need to calculate 15% of 200...</think>
<model>
result = 0.15 * 200
print(f"15% of 200 = {result}")
</model>
<requires>python:math</requires>

这种方法有效,但需要在模型和外部工具之间来回切换,效率不高。作者意识到,如果能让代码生成成为推理过程的一部分,而不是外部调用,效果会更好。

WASM:完美的沙箱计算环境

WebAssembly 成为了理想选择。它简单、天然沙箱化,可以在任何地方运行。作者改造了 Qwen 模型,让它能同时处理自然语言和 WASM 代码:

User: Calculate 12 * 7
Assistant: <think>I need to calculate 12 * 7...</think>
<wat_model>
(module
(func $compute (param f64 f64) (result f64)
local.get 0
local.get 1
f64.mul))
</wat_model>
<computed>84</computed>

关键创新在于,这不再是工具调用,而是推理过程的一部分。模型在生成 token 的同时执行 WASM 代码,计算结果直接注入到上下文中。

多层 WASM 架构

训练过程中,作者创建了三个“WASM 层”,类似于视觉模型中生成图像的层。有趣的是,这三层最终各自专门化了不同的运算:加法、乘法、减法,形成了某种“计算专家混合”模式。

模型使用类似 Flamingo 的交叉注意力机制来生成 .wat 代码,然后通过评分系统选择最佳结果。整个过程发生在推理期间,不需要外部 API 调用。

实验结果:接近但未完美

经过 30 轮训练后,模型在计算 12×11 时的表现:

Layer 3: 144.000000 (multiply) [score: 3.80]
Layer 7: 132.000000 (multiply) [score: 3.44] # 正确答案
Layer 11: SKIPPED [score: 3.07]

正确答案 132 出现在第 7 层,但注意力机制选择了得分更高的第 3 层结果 144。作者表示这很接近了,只需要扩大训练数据集和优化选择机制。

技术验证

作者让 Gemini 审查了代码,得到的总结证实了设计意图:项目将 Qwen 改造为多模态模型,能够同时处理自然语言和 WebAssembly 代码。当识别到计算任务时,使用交叉注意力机制生成相应的 .wat 代码,经过评分、编译后在 wasmtime 沙箱中安全执行。

更大的图景

作者认为,AGI 可能会从当前的世界模型研究中发展出来,但这不意味着 LLM 毫无价值。LLM 将成为机器的自然语言接口,就像 GUI 取代 CLI 但没有让 CLI 消失一样。

通过让 LLM 显式地添加模型和工具调用能力,结合 RAG 系统来回忆和评分模型,我们可以构建基础的世界模型来解决可计算的问题。虽然不如潜在的 AGI 聪明,但能大幅减少可计算任务上的幻觉。

项目代码:https://github.com/bigattichouse/worldmodel


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18246

(0)
上一篇 2026年1月17日 上午8:03
下一篇 2026年1月17日 上午10:28

相关推荐

  • 马斯克预言AI+机器人三年内解决美国38万亿国债危机,揭示Tesla、SpaceX、xAI、Starlink融合成AI文明操作系统

    【导读】马斯克预言:AI与机器人三年内可化解美国债务危机。与此同时,华尔街正悄然转向,押注下一代算力架构。 当美国国债规模攀升至38万亿美元,财政赤字持续膨胀之际,埃隆·马斯克提出了一个大胆的解决方案:无需增税或削减开支,依靠人工智能(AI)和机器人,便可在三年内解决美国的预算危机。 他认为,未来三年内,AI驱动的商品与服务产出增速将超越通货膨胀;二十年内,…

    2025年12月2日
    15400
  • GPT-5自主攻克分子克隆:AI物理元年开启,79倍效率提升背后的暴力美学与精准设计

    【新智元导读】 AI真正走入实验室!OpenAI最新研究显示:GPT-5在「零决策干预」下自主迭代5轮,独创RAPF方案,竟将分子克隆效率暴力拉升79倍! 这不是代码模拟,而是真实物理世界的重塑。欢迎来到2025AI物理元年。 2025年底,OpenAI宣布:AI已经跨越数字边境,正式进入物理实验室! 在最新的研究中,GPT-5化身科学家,不仅优化了分子克隆…

    2025年12月20日
    17500
  • 微软突破亿年数据存储:玻璃硬盘Silica技术登Nature,实现零错误恢复

    微软突破亿年数据存储:玻璃硬盘Silica技术登Nature,实现零错误恢复 《三体》中,人类为文明选择的“亿年级”存档方案,是最原始的“把字刻在石头上”。如今,微软的研究团队真正将数据刻在了玻璃里。 《自然》杂志最新发表的研究,展示了一种名为Silica的三维光学玻璃存储技术。在一块巴掌大小(120mm×120mm)、仅2mm厚的玻璃片中,研究团队实现了3…

    2026年2月21日
    7900
  • 从‘Slop’当选年度词汇看AI内容生态的挑战与演进

    近日,韦氏词典宣布将‘slop’评选为2025年度词汇,并将其新定义为‘通常由人工智能大批量生成的低质量数字内容’。这一词汇的流行,不仅反映了公众对AI生成内容泛滥的直观感受,更揭示了当前数字内容生态面临的深刻变革。 从词源学角度看,‘slop’一词的演变颇具象征意义。18世纪时它指‘软泥’,19世纪转为‘食物残渣’(如猪食),后泛指‘垃圾’或‘无价值之物’…

    2025年12月16日
    14300
  • Claude宪法2.0:从规则清单到价值权衡,Anthropic如何重新定义AI的行为边界

    Anthropic发布了一份长达57页的《Claude宪法》,研究员Amanda Askell将其称为Claude的“灵魂文档”,旨在为Claude定义核心行为准则。 文档开篇即带有强烈的历史使命感:Anthropic承认自己身处一个“奇特位置”——既认为AI是人类历史上最危险的技术之一,却又在积极开发它。其核心逻辑在于,既然强大的AI终将出现,不如让重视安…

    2026年1月22日
    21300