近年来,大模型领域发展迅速,新模型层出不穷。从 GPT、Llama、Gemma、Mistral,到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等,几乎每周都有新架构发布。
然而,随着架构创新日益增多,理解它们却变得愈发困难。不同论文中的模型结构图风格各异,模块命名也不统一,即便是研究者,也很难快速把握一个模型的关键改动之处。
纵观过去几年的主流模型,一个明显的空白是:我们拥有大量模型,却缺少一张清晰、统一的大模型架构对比图。
为此,AI 研究者 Sebastian Raschka 尝试填补这一空白。他将过去几年主流大模型的结构重新绘制,整理成一个在线图谱「LLM Architecture Gallery」。

该网站内容基于 Raschka 此前发表的两篇博客文章:《The Big LLM Architecture Comparison》与《A Dream of Spring for Open-Weight LLMs》。
从页面结构看,「LLM Architecture Gallery」如同一份大模型名录。它汇集了近年来出现的主流模型系列,包括 Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM 等,参数规模覆盖从数亿到千亿乃至万亿级别。

点击任意模型名称即可跳转到对应的详情页。例如,点击 DeepSeek R1 后,页面会定位到该模型的介绍卡片。

每张模型卡都展示了该模型的核心架构图、关键模块设计、参数规模、发布时间及相关概念等基本信息。这使得读者能够在统一的视觉框架下,快速理解不同模型的结构组成。

除 DeepSeek R1 外,Gemma、Llama 等一系列主流模型也被收录其中。用户只需点击模型名称,即可进入专属页面,查看完整的架构示意图与关键设计细节。
对研究者而言,「LLM Architecture Gallery」相当于一份可快速查阅的大模型架构索引。用户可以在同一页面中浏览并对比不同模型的设计思路与创新点,从而更高效地把握技术演进脉络,为后续研究与模型设计提供参考。

正如 AI 研究者 Andrej Karpathy 所评价:“这简直就是一个创意与想法的资源库。”
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25951


