Claude 最强的“神话”模型 Mythos,其背后可能采用了来自字节的技术架构?
这一猜测近日直接冲上了社交平台的热搜榜。

这款被描述为“强到不敢公开发布”的 Mythos 模型,确实激发了业界对下一代大语言模型架构的想象。社区正在热烈讨论它是否采用了循环语言模型架构。
这一概念源自字节跳动 Seed 团队与多所高校合作发表的一篇学术论文,图灵奖得主 Yoshua Bengio 也参与了该项研究。

关键的线索来自 Anthropic 官方公布的一组测试数据。字节的论文曾指出,图搜索是循环算法相比标准方法具有巨大理论优势的领域之一。而 Mythos 模型,正是在广度优先的图搜索测试中,表现出了对竞品 GPT-5.4 的显著超越。

在该项测试中,Mythos 取得了 80% 的得分,而 GPT-5.4 仅为 21.4%,差距接近四倍。值得注意的是,在其他类型的任务上,并未出现如此异常的分差。这暗示,Mythos 的进步很可能并非源于通用的 Scaling Law,而是来自特定的架构创新。
循环语言模型:同一层“多转几圈”,小模型可挑战大模型
GraphWalks BFS 测试要求模型对一个复杂的图结构进行广度优先搜索,即从起点出发,逐层访问所有相邻节点。
标准的 Transformer 架构处理此类问题时,只能进行一次前向传播,从输入到输出,缺乏“迭代”的机制。而 Mythos 能在图遍历任务上取得 80% 的高分,表明其内部很可能在进行“反复计算”,对同一组信息进行了多轮处理。
那么,何种架构能实现这种“反复计算”?字节 Seed 团队的论文提出了 LoopLM 循环语言模型。

LoopLM 架构主要有三个特点:
1. 内部迭代:思考过程发生在模型的潜空间内部,不额外输出更多 Token。
2. 动态步数:简单问题少迭代几步,复杂问题多迭代几步,可自动调节。
3. 预训练目标:训练时学习“如何在潜空间思考”,而不仅仅是“预测下一个 Token”。
研究团队基于此架构训练了 Ouro 系列循环语言模型。

测试结果显示,1.4B 参数的 Ouro 模型,其性能可对标约 4B 参数的传统模型;2.8B 参数的 Ouro 模型,则相当于 8B–12B 参数的传统模型。

关于循环模型能力提升的来源,论文详细区分了“知识存储”与“知识操作”:
* 知识存储的容量基本是固定的,受限于模型参数数量,循环架构本身不会让模型“记住”更多事实。
* 知识操作能力,如多跳推理、程序执行、图结构搜索等,则能随着循环步数和训练数据量的增加而实现指数级增长。
换言之,循环模型并非扩展了知识库的容量,而是极大地增强了在知识库内部进行搜索、组合与推理的能力。
除了图搜索测试,社区还总结了更多指向 Mythos 可能采用循环架构的线索。

三条线索指向循环模型架构
第一条线索,即前述的广度优先图搜索测试结果。Mythos 不仅大幅领先 GPT-5.4,相比其前代模型 Claude 3 Opus 的提升幅度也异常显著。

第二条线索,Anthropic 报告称 Mythos 完成每个任务所使用的 Token 数量是 Opus 4.6 的 1/5,但推理速度反而更慢。这在标准 Transformer 框架下难以解释——Token 少意味着生成步骤少,理应更快。然而,循环模型恰好能解释这一矛盾:大量计算发生在潜空间的内部迭代中,而非可见的 Token 生成步骤。
第三条线索,Mythos 在网络安全测试中表现极为突出。其在 CyberGym 测试集上获得 83.1% 的得分,远超 Opus 4.6 的 66.6%。此外,据称 Mythos 发现了上千个零日漏洞。漏洞发现的本质是对程序控制流图进行遍历,寻找从输入点到危险函数的路径,这同样是一个图的可达性问题——再次契合了循环架构的潜在优势。
目前,所有这些都仍停留在猜测阶段。Anthropic 未公开任何关于 Mythos 架构的信息,且很可能未来也不会公开。但有一句话值得深思:Scaling Law 带来的改进是相对均匀的,而架构创新则会在与其归纳偏置相匹配的特定任务上,创造出异常突出的性能尖峰。

循环 Transformer 的归纳偏置正是迭代图算法。而 Mythos 的性能尖峰,恰好出现在图遍历任务上。或许,Anthropic 无需多言,测试数据本身已经透露了关键信息。
论文链接:
https://arxiv.org/abs/2510.25741
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29995

