近期,一个名为OpenMythos的开源项目整合了公开研究及对Claude Mythos架构的主流推测,实现了一种创新的循环深度Transformer架构。

该架构名为循环深度Transformer,其核心在于通过跨专家的权重共享与条件计算实现迭代深度。已有研究证实,这种设计能以仅一半的参数量,达到与传统模型同等的性能。
核心思路:不堆叠参数,而增加循环
该架构的设计者Kye Gomez指出,其核心在于让同一组模型权重在推理过程中循环使用,而非简单堆叠更多参数。

循环深度Transformer架构有三个关键设计:
* 权重复用:同一组权重可反复使用最多16次。
* 动态路径:每次循环通过路由机制激活不同的专家子集。
* 潜在空间推理:整个推理过程在隐藏状态向量中完成,不生成中间文本。
这三者结合,旨在让模型对一个问题进行更深入的“思考”,而非单纯扩大参数规模。
传统做法是堆叠上百层不同的Transformer层,导致参数量激增。而RDT架构仅使用少数几层,通过最多16次循环迭代进行计算,每次迭代都基于前一轮的结果继续深化。

关键技术:混合专家与循环稳定
一个自然的疑问是:同一组权重循环多次,是否只是重复计算?
RDT的答案是否定的,其关键在于每次循环激活的是不同的“专家”。循环块内部集成了混合专家层,路由器在每次迭代中选择不同的专家子集。其MoE设计借鉴了细粒度路由与共享专家的思路。
设计者将这一理念总结为:MoE提供了领域知识的广度,而循环则提供了推理的深度。
为确保多次循环的稳定性,研究引入了来自相关论文的稳定机制,防止循环过程发散。实验表明,一个770M参数的RDT模型,其性能可追平1.3B参数的标准Transformer模型,参数量减少近一半。

内在化推理与泛化能力
另一关键特征是连续潜在空间推理。模型在全部循环结束后才输出最终答案,整个思考过程内化于隐藏状态中,这与需要逐步输出中间结果的思维链技术有本质不同。

相关学术论文为循环架构提供了进一步佐证。实验显示,循环Transformer在系统性泛化(组合未见过的知识)和深度外推(处理比训练时更长的推理链)方面表现优异,表明其具备更强的知识组合与深层推理能力。

这些发现暗示,当前大模型的瓶颈可能不在于记忆更多知识,而在于如何有效组合已知知识。循环机制似乎为解锁这种组合能力提供了一条路径。若结论成立,AI发展的焦点可能从“训练更大的模型”部分转向“让现有模型进行更深入的推理”。
对循环Transformer的探索已吸引学术界的广泛关注,更多理论与实验验证正在进行中。
项目与参考链接:
* GitHub项目:https://github.com/kyegomez/OpenMythos
* 参考论文:
* https://arxiv.org/abs/2604.07822
* https://arxiv.org/abs/2604.12946
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31225

