一张图看懂主流大模型架构！AI研究者整理「LLM Architecture Gallery」在线图谱

2026年3月16日下午2:14 • 开源项目 • 阅读 757

近年来，大模型领域发展迅速，新模型层出不穷。从 GPT、Llama、Gemma、Mistral，到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等，几乎每周都有新架构发布。

然而，随着架构创新日益增多，理解它们却变得愈发困难。不同论文中的模型结构图风格各异，模块命名也不统一，即便是研究者，也很难快速把握一个模型的关键改动之处。

纵观过去几年的主流模型，一个明显的空白是：我们拥有大量模型，却缺少一张清晰、统一的大模型架构对比图。

为此，AI 研究者 Sebastian Raschka 尝试填补这一空白。他将过去几年主流大模型的结构重新绘制，整理成一个在线图谱「LLM Architecture Gallery」。

一张图看懂主流大模型架构！AI研究者整理「LLM Architecture Gallery」在线图谱

该网站内容基于 Raschka 此前发表的两篇博客文章：《The Big LLM Architecture Comparison》与《A Dream of Spring for Open-Weight LLMs》。

从页面结构看，「LLM Architecture Gallery」如同一份大模型名录。它汇集了近年来出现的主流模型系列，包括 Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM 等，参数规模覆盖从数亿到千亿乃至万亿级别。

一张图看懂主流大模型架构！AI研究者整理「LLM Architecture Gallery」在线图谱

点击任意模型名称即可跳转到对应的详情页。例如，点击 DeepSeek R1 后，页面会定位到该模型的介绍卡片。

一张图看懂主流大模型架构！AI研究者整理「LLM Architecture Gallery」在线图谱

每张模型卡都展示了该模型的核心架构图、关键模块设计、参数规模、发布时间及相关概念等基本信息。这使得读者能够在统一的视觉框架下，快速理解不同模型的结构组成。

一张图看懂主流大模型架构！AI研究者整理「LLM Architecture Gallery」在线图谱

除 DeepSeek R1 外，Gemma、Llama 等一系列主流模型也被收录其中。用户只需点击模型名称，即可进入专属页面，查看完整的架构示意图与关键设计细节。

对研究者而言，「LLM Architecture Gallery」相当于一份可快速查阅的大模型架构索引。用户可以在同一页面中浏览并对比不同模型的设计思路与创新点，从而更高效地把握技术演进脉络，为后续研究与模型设计提供参考。

一张图看懂主流大模型架构！AI研究者整理「LLM Architecture Gallery」在线图谱

正如 AI 研究者 Andrej Karpathy 所评价：“这简直就是一个创意与想法的资源库。”

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/25951

AI研究 Sebastian Raschka 大模型架构开源项目模型对比

赞 (0)

0 0

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

上一篇 2026年3月16日下午2:13

从心跳到持续感知：Clawith如何革新OpenClaw，打造协同AI数字员工

下一篇 2026年3月16日下午3:20

开源项目

赛博永生：开源项目colleague-skill五天斩获7K星，将离职同事“炼化”成AI继续打工

赛博永生：开源项目 colleague-skill 五天斩获 7K 星，将离职同事“炼化”成 AI 继续打工最近，GitHub 上一个名为 colleague-skill 的开源项目引发了广泛关注。该项目在短短五天内便斩获了超过 7000 颗星，且增长势头迅猛。其项目简介写道：“将冰冷的离别化为温暖的 Skill，欢迎加入赛博永生。” 初看之下，这个项目概…

2026年4月5日
853000
开源项目

开源3天斩获7000星！复刻Manus工作流的GitHub项目引爆Agent开发圈

这个名为 planning-with-files 的开源项目近期在 Agent 开发社区引发了高度关注，其核心在于通过文件系统来管理 AI 的长期记忆与复杂任务规划。项目开源仅数日，便在 GitHub 上获得了数千星标。它演示了如何利用 Claude Code Skill 实现与 Manus 产品理念相似的上下文工程工作流。 Manus 的上下文工程原则 …

2026年1月12日
374000
开源项目

十大AI Agent开发平台深度解析：从AutoGPT到LangChain，构建下一代智能应用

AutoGPT AutoGPT 是 AI Agent 领域的开创性项目，在 GitHub 上已获得超过 18 万星标。与传统的聊天机器人不同，AutoGPT 能够自主地将一个宏观目标拆解为一系列子任务，并通过调用互联网搜索、读写本地文件等工具来逐步实现目标。 AutoGPT 具备强大的工具调用与环境交互能力。它能够访问互联网以获取最新信息、管理本地文件、执…

2025年12月29日
1.8K001
开源项目

腾讯开源Cube Sandbox：微秒级沙箱技术突破，AI智能体冷启动60毫秒、内存仅5MB

沙箱技术是构建安全、高效运行环境的核心与难点，传统方案往往需要在安全性与性能之间做出权衡。Docker容器因共享主机内核而存在潜在逃逸风险，而完整的虚拟机则通常伴随着沉重的资源开销。腾讯开源的Cube Sandbox通过使用RustVMM重构虚拟化层，在KVM基础上实现了微秒级的资源分配，其主要特性包括：冷启动60毫秒：基于预置资源池与快照克隆技术，启动…

2026年4月22日
195000
开源项目

SWE-MiniSandbox：无需容器，低成本训练你的AI编程助手！北大团队开源轻量级SWE Agent训练框架

本工作由北京大学王选计算机研究所赵东岩、张辉帅老师团队完成，第一作者为北京大学前沿交叉学科研究院硕士生袁旦龙。随着软件工程智能体（SWE Agent）因其明确的应用前景与价值而备受关注，从业者尝试训练自己的智能体时却面临挑战。当前主流训练方法依赖容器技术（如 Docker）实现环境隔离与复现，但其高昂的基础设施与运维成本，尤其在扩展训练规模时，构成了显著的…

2026年3月22日
469000