OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

近期,一个名为OpenMythos开源项目整合了公开研究及对Claude Mythos架构的主流推测,实现了一种创新的循环深度Transformer架构。

OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

该架构名为循环深度Transformer,其核心在于通过跨专家的权重共享与条件计算实现迭代深度。已有研究证实,这种设计能以仅一半的参数量,达到与传统模型同等的性能。

核心思路:不堆叠参数,而增加循环

该架构的设计者Kye Gomez指出,其核心在于让同一组模型权重在推理过程中循环使用,而非简单堆叠更多参数。

OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

循环深度Transformer架构有三个关键设计:
* 权重复用:同一组权重可反复使用最多16次。
* 动态路径:每次循环通过路由机制激活不同的专家子集。
* 潜在空间推理:整个推理过程在隐藏状态向量中完成,不生成中间文本。

这三者结合,旨在让模型对一个问题进行更深入的“思考”,而非单纯扩大参数规模。

传统做法是堆叠上百层不同的Transformer层,导致参数量激增。而RDT架构仅使用少数几层,通过最多16次循环迭代进行计算,每次迭代都基于前一轮的结果继续深化。

OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

关键技术:混合专家与循环稳定

一个自然的疑问是:同一组权重循环多次,是否只是重复计算?
RDT的答案是否定的,其关键在于每次循环激活的是不同的“专家”。循环块内部集成了混合专家层,路由器在每次迭代中选择不同的专家子集。其MoE设计借鉴了细粒度路由与共享专家的思路。

设计者将这一理念总结为:MoE提供了领域知识的广度,而循环则提供了推理的深度。

为确保多次循环的稳定性,研究引入了来自相关论文的稳定机制,防止循环过程发散。实验表明,一个770M参数的RDT模型,其性能可追平1.3B参数的标准Transformer模型,参数量减少近一半。

OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

内在化推理与泛化能力

另一关键特征是连续潜在空间推理。模型在全部循环结束后才输出最终答案,整个思考过程内化于隐藏状态中,这与需要逐步输出中间结果的思维链技术有本质不同。

OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

相关学术论文为循环架构提供了进一步佐证。实验显示,循环Transformer在系统性泛化(组合未见过的知识)和深度外推(处理比训练时更长的推理链)方面表现优异,表明其具备更强的知识组合与深层推理能力。

OpenMythos开源:循环深度Transformer架构揭秘,用一半参数实现同等效果

这些发现暗示,当前大模型的瓶颈可能不在于记忆更多知识,而在于如何有效组合已知知识。循环机制似乎为解锁这种组合能力提供了一条路径。若结论成立,AI发展的焦点可能从“训练更大的模型”部分转向“让现有模型进行更深入的推理”。

对循环Transformer的探索已吸引学术界的广泛关注,更多理论与实验验证正在进行中。

项目与参考链接:
* GitHub项目:https://github.com/kyegomez/OpenMythos
* 参考论文:
* https://arxiv.org/abs/2604.07822
* https://arxiv.org/abs/2604.12946


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31225

(0)
上一篇 5天前
下一篇 4天前

相关推荐

  • Claude Code源码意外泄露!51万行代码全曝光,电子宠物、长期记忆助手等8大隐藏功能被发现

    Claude Code源码意外泄露!51万行代码全曝光,电子宠物、长期记忆助手等8大隐藏功能被发现(上) Claude Code 的源码泄露了。消息一出,开发者们的第一反应是立刻执行 git clone。 备份仓库 instructkr/claude-code 瞬间获得了超过 2 万颗星。 事件的起因颇具戏剧性:在 Claude Code 发布新版本 v2.…

    2026年4月1日
    50600
  • OpenResearcher:首个开源离线深度研究轨迹合成流水线,训练30B模型超越GPT-4.1与Claude-4-Opus

    训练一个能够像人类研究员一样执行“搜索→浏览→推理”的深度研究智能体,其核心瓶颈往往不在于模型本身的能力,而在于高质量、长程研究轨迹数据的严重匮乏。现有的数据采集方法要么依赖昂贵且不稳定的在线搜索API,要么只能生成2-5轮的浅层交互,远不足以覆盖真实深度研究中动辄数十轮甚至上百轮的复杂推理链条。 针对这一痛点,来自德克萨斯农工大学、滑铁卢大学、加州大学圣地…

    2026年3月29日
    39900
  • AI编程革命:本周6大GitHub明星项目深度解析

    DeepCode:智能体编程平台 DeepCode 由香港大学数据智能实验室开发,是一个采用多智能体系统架构的智能体编程平台。它能够理解复杂需求(如研究论文或自然语言描述),并通过智能体协作自动生成高质量的、可运行的代码。例如,用户上传一篇 ICML 论文,DeepCode 能自动解析其中的算法,生成 Python 实现,并附带测试用例和文档。 它提供网页界…

    2025年11月9日
    30300
  • SWE-MiniSandbox:无需容器,低成本训练你的AI编程助手!北大团队开源轻量级SWE Agent训练框架

    本工作由北京大学王选计算机研究所赵东岩、张辉帅老师团队完成,第一作者为北京大学前沿交叉学科研究院硕士生袁旦龙。 随着软件工程智能体(SWE Agent)因其明确的应用前景与价值而备受关注,从业者尝试训练自己的智能体时却面临挑战。当前主流训练方法依赖容器技术(如 Docker)实现环境隔离与复现,但其高昂的基础设施与运维成本,尤其在扩展训练规模时,构成了显著的…

    2026年3月22日
    44100
  • MiroThinker:开源重型研究型AI Agent,让小龙虾帮你完成深度调研

    在处理需要深度搜索、多方对比与交叉验证才能得出体系化结论的复杂任务时,我会使用 MiroThinker。 这是一个开源的重型研究型 AI Agent。与常规的问答式聊天机器人不同,MiroThinker 能够进行持续的长链推理、主动浏览网页、在不确定环境中进行探索,最终生成一份扎实的研究报告。 它已成为我高频使用的 AI 工具之一。此前,我已在飞书中配置了名…

    2026年3月19日
    36800