小模型突破计算瓶颈:WorldModel-Qwen实现推理中WASM代码执行

最近,开发者 bigattichouse 分享了一个有趣的实验:让 Qwen-0.6B 这样的小模型在推理过程中生成并执行 WASM 代码,从而获得确定性的计算结果。

这个项目的灵感借鉴了人类思维。在关于 AGI 与 LLM 智能的讨论中,“世界模型”的概念变得越来越重要。就像人类接球时大脑会建立物理模型一样,AI 模型也需要某种形式的世界建模能力。但对于 Qwen-0.6B 这样的超小模型,连基础数学计算都容易出错,更别说进行复杂推理了。

从思考标签到代码执行

最初的尝试是在模型中加入 <think><model> 标签,让模型先思考再生成 Python 代码:

<think>I need to calculate 15% of 200...</think>
<model>
result = 0.15 * 200
print(f"15% of 200 = {result}")
</model>
<requires>python:math</requires>

这种方法有效,但需要在模型和外部工具之间来回切换,效率不高。作者意识到,如果能让代码生成成为推理过程的一部分,而不是外部调用,效果会更好。

WASM:完美的沙箱计算环境

WebAssembly 成为了理想选择。它简单、天然沙箱化,可以在任何地方运行。作者改造了 Qwen 模型,让它能同时处理自然语言和 WASM 代码:

User: Calculate 12 * 7
Assistant: <think>I need to calculate 12 * 7...</think>
<wat_model>
(module
(func $compute (param f64 f64) (result f64)
local.get 0
local.get 1
f64.mul))
</wat_model>
<computed>84</computed>

关键创新在于,这不再是工具调用,而是推理过程的一部分。模型在生成 token 的同时执行 WASM 代码,计算结果直接注入到上下文中。

多层 WASM 架构

训练过程中,作者创建了三个“WASM 层”,类似于视觉模型中生成图像的层。有趣的是,这三层最终各自专门化了不同的运算:加法、乘法、减法,形成了某种“计算专家混合”模式。

模型使用类似 Flamingo 的交叉注意力机制来生成 .wat 代码,然后通过评分系统选择最佳结果。整个过程发生在推理期间,不需要外部 API 调用。

实验结果:接近但未完美

经过 30 轮训练后,模型在计算 12×11 时的表现:

Layer 3: 144.000000 (multiply) [score: 3.80]
Layer 7: 132.000000 (multiply) [score: 3.44] # 正确答案
Layer 11: SKIPPED [score: 3.07]

正确答案 132 出现在第 7 层,但注意力机制选择了得分更高的第 3 层结果 144。作者表示这很接近了,只需要扩大训练数据集和优化选择机制。

技术验证

作者让 Gemini 审查了代码,得到的总结证实了设计意图:项目将 Qwen 改造为多模态模型,能够同时处理自然语言和 WebAssembly 代码。当识别到计算任务时,使用交叉注意力机制生成相应的 .wat 代码,经过评分、编译后在 wasmtime 沙箱中安全执行。

更大的图景

作者认为,AGI 可能会从当前的世界模型研究中发展出来,但这不意味着 LLM 毫无价值。LLM 将成为机器的自然语言接口,就像 GUI 取代 CLI 但没有让 CLI 消失一样。

通过让 LLM 显式地添加模型和工具调用能力,结合 RAG 系统来回忆和评分模型,我们可以构建基础的世界模型来解决可计算的问题。虽然不如潜在的 AGI 聪明,但能大幅减少可计算任务上的幻觉。

项目代码:https://github.com/bigattichouse/worldmodel


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/18246

(0)
上一篇 2026年1月17日 上午8:03
下一篇 2026年1月17日 上午10:28

相关推荐

  • Grok 4.3深度评测:性能逼近GPT-5.5,价格却低60%,xAI的务实反击

    Grok 4.3 是 xAI 一次务实的升级:它变得更便宜、更快,也更像一个能真正干活的助手。然而,在硬推理、稳定性和可信度方面,它仍落后于 GPT-5.5 与 Claude Opus 4.7。 xAI 发布了 Grok 4.3,但没有大张旗鼓地宣传。马斯克甚至没有为此单独发推,它看起来更像是一个过渡版本。 这更像是一次安静的“产品换挡”:将模型接入 API…

    2026年5月2日
    45300
  • FGN技术革命:谷歌DeepMind WeatherNext 2如何重塑小时级气象预报新范式

    气象预报领域正迎来一场由人工智能驱动的深刻变革。谷歌DeepMind最新发布的WeatherNext 2系统,不仅将预报精度提升至小时级别,更通过创新的功能生成网络(FGN)技术,实现了对天气演变的多情景概率预测,标志着传统数值预报方法向智能化、实时化方向迈出了关键一步。 传统气象预报主要依赖基于物理方程组的数值天气预报模型,这些模型需要在超级计算机上运行数…

    2025年11月18日
    40500
  • 从春晚舞台到全球瞩目:宇树机器人如何通过《武BOT》实现人形机器人集群武术表演的技术突破

    宇树的“赛博功夫”,火到海外了。 当机器人开始显露“真功夫”,春晚的科技叙事变了。过去几年,机器人登上各种大大小小的舞台,更多是承载一种科技符号,它们或是节奏偏慢的舞蹈方阵,或是呆萌可爱的互动玩偶,观众图个新鲜,看个热闹。但2026年马年春晚,宇树科技带着G1与H2人形机器人登场的那一刻,几乎所有人意识到:机器人演示进入下一个阶段了。 跑酷、翻桌、单腿连续空…

    2026年2月18日
    76900
  • NVIDIA ComputeEval:从基准建立到难度升级,全面评估 LLMs 的 CUDA 代码生成能力

    关键词:CUDA 代码生成 、NVIDIA、CUDA 代码数据集 、AI 辅助编程 大语言模型(LLMs)正深刻改变开发者的编码方式——无论是资深工程师还是入门开发者,如今的顶尖模型已能流畅生成 Python 脚本、React 网站代码等。 代码:https://github.com/nvidia/compute-eval 数据:https://huggin…

    2025年12月21日
    45300
  • OpenAI GPT Image 2震撼发布:AI生图以假乱真,有图为证时代终结?

    一段看似真实的网络片段在流传:埃隆·马斯克在抖音直播带货老干妈,直播间人气爆棚;他与热门游戏《GTA 6》联动,现身虚拟都市;甚至与他“心爱”的奥特曼同框。 然而,这一切都是假的。没有直播,没有弹幕,游戏截图也非真实。这些足以乱真的图像,全部由 OpenAI 最新发布的图像生成模型 GPT Image 2 创建。AI 图像生成技术似乎已经跨越了一个关键门槛,…

    2026年4月19日
    91200