Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

Claude 最强的“神话”模型 Mythos,其背后可能采用了来自字节的技术架构?

这一猜测近日直接冲上了社交平台的热搜榜。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

这款被描述为“强到不敢公开发布”的 Mythos 模型,确实激发了业界对下一代大语言模型架构的想象。社区正在热烈讨论它是否采用了循环语言模型架构。

这一概念源自字节跳动 Seed 团队与多所高校合作发表的一篇学术论文,图灵奖得主 Yoshua Bengio 也参与了该项研究。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

关键的线索来自 Anthropic 官方公布的一组测试数据。字节的论文曾指出,图搜索是循环算法相比标准方法具有巨大理论优势的领域之一。而 Mythos 模型,正是在广度优先的图搜索测试中,表现出了对竞品 GPT-5.4 的显著超越。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

在该项测试中,Mythos 取得了 80% 的得分,而 GPT-5.4 仅为 21.4%,差距接近四倍。值得注意的是,在其他类型的任务上,并未出现如此异常的分差。这暗示,Mythos 的进步很可能并非源于通用的 Scaling Law,而是来自特定的架构创新

循环语言模型:同一层“多转几圈”,小模型可挑战大模型

GraphWalks BFS 测试要求模型对一个复杂的图结构进行广度优先搜索,即从起点出发,逐层访问所有相邻节点。

标准的 Transformer 架构处理此类问题时,只能进行一次前向传播,从输入到输出,缺乏“迭代”的机制。而 Mythos 能在图遍历任务上取得 80% 的高分,表明其内部很可能在进行“反复计算”,对同一组信息进行了多轮处理。

那么,何种架构能实现这种“反复计算”?字节 Seed 团队的论文提出了 LoopLM 循环语言模型。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

LoopLM 架构主要有三个特点:
1. 内部迭代:思考过程发生在模型的潜空间内部,不额外输出更多 Token。
2. 动态步数:简单问题少迭代几步,复杂问题多迭代几步,可自动调节。
3. 预训练目标:训练时学习“如何在潜空间思考”,而不仅仅是“预测下一个 Token”。

研究团队基于此架构训练了 Ouro 系列循环语言模型。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

测试结果显示,1.4B 参数的 Ouro 模型,其性能可对标约 4B 参数的传统模型;2.8B 参数的 Ouro 模型,则相当于 8B–12B 参数的传统模型。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

关于循环模型能力提升的来源,论文详细区分了“知识存储”与“知识操作”:
* 知识存储的容量基本是固定的,受限于模型参数数量,循环架构本身不会让模型“记住”更多事实。
* 知识操作能力,如多跳推理、程序执行、图结构搜索等,则能随着循环步数和训练数据量的增加而实现指数级增长

换言之,循环模型并非扩展了知识库的容量,而是极大地增强了在知识库内部进行搜索、组合与推理的能力。

除了图搜索测试,社区还总结了更多指向 Mythos 可能采用循环架构的线索。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

三条线索指向循环模型架构

第一条线索,即前述的广度优先图搜索测试结果。Mythos 不仅大幅领先 GPT-5.4,相比其前代模型 Claude 3 Opus 的提升幅度也异常显著。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

第二条线索,Anthropic 报告称 Mythos 完成每个任务所使用的 Token 数量是 Opus 4.6 的 1/5,但推理速度反而更慢。这在标准 Transformer 框架下难以解释——Token 少意味着生成步骤少,理应更快。然而,循环模型恰好能解释这一矛盾:大量计算发生在潜空间的内部迭代中,而非可见的 Token 生成步骤。

第三条线索,Mythos 在网络安全测试中表现极为突出。其在 CyberGym 测试集上获得 83.1% 的得分,远超 Opus 4.6 的 66.6%。此外,据称 Mythos 发现了上千个零日漏洞。漏洞发现的本质是对程序控制流图进行遍历,寻找从输入点到危险函数的路径,这同样是一个图的可达性问题——再次契合了循环架构的潜在优势。

目前,所有这些都仍停留在猜测阶段。Anthropic 未公开任何关于 Mythos 架构的信息,且很可能未来也不会公开。但有一句话值得深思:Scaling Law 带来的改进是相对均匀的,而架构创新则会在与其归纳偏置相匹配的特定任务上,创造出异常突出的性能尖峰。

Claude最强“神话”模型Mythos:字节循环架构技术加持,图搜索性能碾压GPT5.4四倍

循环 Transformer 的归纳偏置正是迭代图算法。而 Mythos 的性能尖峰,恰好出现在图遍历任务上。或许,Anthropic 无需多言,测试数据本身已经透露了关键信息。

论文链接
https://arxiv.org/abs/2510.25741


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29995

(0)
上一篇 2026年4月13日 下午12:14
下一篇 2026年4月13日 下午4:07

相关推荐

  • CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验

    在城市街景场景中,Proxy-GS 在保持细粒度视觉细节的同时,实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量,从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化,其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。 Proxy-GS:面向结构化3D高斯溅射的统一遮挡先验 论文链接:https://arxiv.o…

    2026年3月18日
    46100
  • LangGraph实战:构建高效Agentic工作流,解锁AI应用开发新范式

    用 Agentic 框架构建 AI 工作流 随着 GPT-5、Gemini 2.5 Pro 等强大 AI 模型的涌现,旨在高效利用这些模型的 Agentic 框架也日益增多。这类框架通过抽象化诸多复杂环节,极大地简化了与 AI 模型的协作,例如处理工具调用、管理智能体状态以及集成人工反馈循环。 本文将深入探讨其中一个可用的 Agentic AI 框架:Lan…

    2025年11月21日
    39700
  • 智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

    GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。 论文标题直接点明了其核心主张:告别Vibe Coding,迈入 智能体工程(Agentic Engineering)。 正如之前的实测所示,GLM-5能够自主连续运行代码超过24小时,进行超过700次工具调用和800次上下文切换,甚至可以从零开始构建一个Game Boy Advance(…

    2026年2月25日
    46900
  • DeepMind突破:多智能体系统规模化瓶颈揭示,任务匹配度成关键性能指标

    在AI领域,智能体(Agent)的研究与应用日益增多,原生多智能体工作的基础模型也已开始出现。 作为一个能够推理、规划和行动的系统,智能体正逐渐成为现实世界人工智能应用的常见范式。从编程助手到私人健康教练,AI应用正从单次问答转向持续的多步骤交互。尽管研究人员长期以来一直利用既定指标来优化传统机器学习模型的准确性,但AI智能体引入了新的复杂性。 与孤立的预测…

    2026年2月25日
    41500
  • 为什么你的 AI Agent 需要状态回放(以及 MCP 如何解决这个问题)

    引言 随着 AI Agent 日益复杂,在生产环境中管理其状态已成为最关键的挑战之一。当 Agent 需要在多轮交互中保持上下文、从中断的流程中恢复,或对其决策过程进行审计时,传统的无状态架构会失效。这正是状态回放变得必不可少的原因,而模型上下文协议则为此提供了优雅的解决方案。 在这份全面指南中,我们将探讨为何状态管理对 AI Agent 至关重要、它解决了…

    2025年12月29日
    39600