OpenMythos开源：循环深度Transformer架构揭秘，用一半参数实现同等效果

4天前 • 开源项目 • 阅读 331

近期，一个名为OpenMythos的开源项目整合了公开研究及对Claude Mythos架构的主流推测，实现了一种创新的循环深度Transformer架构。

该架构名为循环深度Transformer，其核心在于通过跨专家的权重共享与条件计算实现迭代深度。已有研究证实，这种设计能以仅一半的参数量，达到与传统模型同等的性能。

该架构的设计者Kye Gomez指出，其核心在于让同一组模型权重在推理过程中循环使用，而非简单堆叠更多参数。

OpenMythos开源：循环深度Transformer架构揭秘，用一半参数实现同等效果

循环深度Transformer架构有三个关键设计：
* 权重复用：同一组权重可反复使用最多16次。
* 动态路径：每次循环通过路由机制激活不同的专家子集。
* 潜在空间推理：整个推理过程在隐藏状态向量中完成，不生成中间文本。

这三者结合，旨在让模型对一个问题进行更深入的“思考”，而非单纯扩大参数规模。

传统做法是堆叠上百层不同的Transformer层，导致参数量激增。而RDT架构仅使用少数几层，通过最多16次循环迭代进行计算，每次迭代都基于前一轮的结果继续深化。

OpenMythos开源：循环深度Transformer架构揭秘，用一半参数实现同等效果

一个自然的疑问是：同一组权重循环多次，是否只是重复计算？
RDT的答案是否定的，其关键在于每次循环激活的是不同的“专家”。循环块内部集成了混合专家层，路由器在每次迭代中选择不同的专家子集。其MoE设计借鉴了细粒度路由与共享专家的思路。

设计者将这一理念总结为：MoE提供了领域知识的广度，而循环则提供了推理的深度。

为确保多次循环的稳定性，研究引入了来自相关论文的稳定机制，防止循环过程发散。实验表明，一个770M参数的RDT模型，其性能可追平1.3B参数的标准Transformer模型，参数量减少近一半。

OpenMythos开源：循环深度Transformer架构揭秘，用一半参数实现同等效果

另一关键特征是连续潜在空间推理。模型在全部循环结束后才输出最终答案，整个思考过程内化于隐藏状态中，这与需要逐步输出中间结果的思维链技术有本质不同。

OpenMythos开源：循环深度Transformer架构揭秘，用一半参数实现同等效果

相关学术论文为循环架构提供了进一步佐证。实验显示，循环Transformer在系统性泛化（组合未见过的知识）和深度外推（处理比训练时更长的推理链）方面表现优异，表明其具备更强的知识组合与深层推理能力。

OpenMythos开源：循环深度Transformer架构揭秘，用一半参数实现同等效果

这些发现暗示，当前大模型的瓶颈可能不在于记忆更多知识，而在于如何有效组合已知知识。循环机制似乎为解锁这种组合能力提供了一条路径。若结论成立，AI发展的焦点可能从“训练更大的模型”部分转向“让现有模型进行更深入的推理”。

对循环Transformer的探索已吸引学术界的广泛关注，更多理论与实验验证正在进行中。

项目与参考链接：
* GitHub项目：https://github.com/kyegomez/OpenMythos
* 参考论文：
* https://arxiv.org/abs/2604.07822
* https://arxiv.org/abs/2604.12946

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/31225