9张图速览大模型核心技术：从Transformer到AI Agent的全面解析

在 AI 工程领域，RAG（检索增强生成）、LLM（大语言模型）和 AI Agent（智能体）是当前最核心的技术方向。本文通过 9 张可视化图表，系统性地解析其核心概念、技术差异与应用场景，旨在帮助读者快速把握技术脉络。

1. Transformer 与混合专家 (Mixture of Experts)

混合专家（MoE）是一种改进Transformer模型性能的流行架构。其核心思想是通过路由网络动态选择激活不同的“专家”子网络，从而在保持模型总参数量巨大的同时，显著减少单次推理的计算开销。

* Transformer：采用固定的前馈神经网络，每次推理时所有参数均被激活。
* 混合专家 (MoE)：引入路由网络，根据输入动态选择激活部分专家网络，实现“稀疏激活”，以更少的计算量利用海量参数。

2. 五种 LoRA 微调方法

对大语言模型进行全参数微调成本极高。LoRA（低秩适应）及其变体通过冻结预训练权重、仅训练少量新增参数来实现高效微调。

* LoRA：冻结预训练权重矩阵 W，引入低秩适配器矩阵 A 和 B，仅训练 A 和 B。
* LoRA-FA：在 LoRA 基础上，将矩阵 A 在初始化后冻结，仅训练矩阵 B，将可训练参数量减半。
* VeRA：不再单独训练 A 和 B，而是将其初始化为共享的随机固定矩阵，转而训练新引入的一对可学习向量 d 和 b。
* Delta-LoRA：在训练适配器 A 和 B 的同时，利用 A x B 的梯度来更新原始的预训练权重矩阵 W，突破性能瓶颈。
* LoRA+：为适配器矩阵 A 和 B 设置差异化的学习率（通常 lr_B >> lr_A），以提升训练效率和效果。

3. KV 缓存 (Key-Value Cache)

KV 缓存是大模型实现高效文本生成的关键技术。其原理是缓存历史序列计算得到的键（Key）和值（Value）向量，在生成新 token 时直接复用，避免对已生成文本的重复计算。

* 核心洞察 1：模型仅需最后一个隐藏状态来预测下一个 token。
* 核心洞察 2：最终的隐藏状态仅依赖于当前的查询向量与之前所有 token 的 Key/Value 向量。
* 结论：缓存历史 K/V 向量可避免重复计算，大幅提升长文本生成效率。

4. 传统 RAG 与基于智能体的 RAG

* 传统 RAG：遵循“检索 → 生成”的固定单轮流程，难以处理需要多步推理或外部信息验证的复杂问题。
* 基于智能体的 RAG：引入智能体决策循环，能够动态进行查询改写、执行多轮检索、调用外部工具（如计算器、搜索引擎），以解决复杂逻辑推理任务。

5. 传统 RAG 与图结构 RAG (Graph RAG)

* 传统 RAG：基于向量相似度的检索方式，擅长查找局部相关文本，但难以捕捉文档间或跨段落的深层实体关系。
* 图结构 RAG：将文档知识构建成知识图谱，通过图遍历和关系推理来回答复杂问题，适用于金融风控、学术研究等需要关系网络分析的场景。

6. 传统 RAG 与假设文档嵌入 (HyDE)

* 传统 RAG：直接使用用户原始查询进行检索，当查询与文档答案在语义表达上差异较大时，检索效果不佳。
* 假设文档嵌入 (HyDE)：先让 LLM 根据查询生成一个“假设性答案”或虚拟文档，再用这个假设文档去检索真实文档。通过“查询→假设答案→精准检索”三步法，提升检索的相关性。

7. 五种 RAG 文本切分策略

处理长文档时，有效的文本切分（Chunking）是保障检索质量的基础。不同策略适用于不同场景：

* 固定大小切分：按固定字符/Token数分割，简单高效，适合结构化文档（如API文档）。
* 语义切分：按句子或自然段落分割，保持语义完整性，适合书籍、论文。
* 递归切分：采用分层递归的方式，先按大分隔符（如章节）切分，再对小块按更细的分隔符切分，适合结构复杂的报告。
* 结构切分：依据文档的固有结构（如标题、目录）进行切分，适合手册、说明书。
* LLM 辅助切分：利用大模型理解文本内容，智能识别逻辑边界并进行动态切分，适合高度非结构化文本。

8. 智能体五大设计模式

AI Agent 通过特定的设计模式实现“思考-行动-观察”的自主循环。

1. 反思模式：生成初步答案后，进行自我校验和修正，迭代优化输出。
2. 工具使用模式：学习调用外部工具（API、数据库、搜索引擎）来获取信息或执行动作。
3. ReAct 模式：将“推理（Reasoning）”和“行动（Acting）”结合在循环中，逐步推理并执行步骤以完成任务。
4. 规划模式：将复杂任务分解为清晰的子任务序列，并按计划逐步执行。
5. 多智能体协作：多个具有不同角色和能力的 Agent 通过通信与协作，共同完成复杂任务。

9. 智能体的五级成熟度

从简单响应到完全自主，智能体的能力可分为不同成熟度等级：

1. 基础响应级：根据提示词生成回复，无状态记忆和规划能力（如早期聊天机器人）。
2. 路由级：能够根据问题类型，将请求路由到最合适的模型或处理流程。
3. 工具调用级：具备主动调用外部工具（如计算器、代码解释器）来解决问题的能力。
4. 多智能体协作级：多个 Agent 分工合作，通过协商共同完成复杂任务。
5. 自主执行级：在给定高级目标后，能够自主进行任务规划、执行、监控和修正，无需人工干预。

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/13784

9张图速览大模型核心技术：从Transformer到AI Agent的全面解析

在 AI 工程领域，RAG（检索增强生成）、LLM（大语言模型）和 AI Agent（智能体）是当前最核心的技术方向。本文通过 9 张可视化图表，系统性地解析其核心概念、技术差异与应用场景，旨在帮助读者快速把握技术脉络。

1. Transformer 与 混合专家 (Mixture of Experts)

2. 五种 LoRA 微调方法

3. KV 缓存 (Key-Value Cache)

4. 传统 RAG 与 基于智能体的 RAG

5. 传统 RAG 与 图结构 RAG (Graph RAG)

6. 传统 RAG 与 假设文档嵌入 (HyDE)

7. 五种 RAG 文本切分策略

8. 智能体五大设计模式

9. 智能体的五级成熟度

相关推荐

揭秘RAG排序层：LambdaMART如何成为检索增强生成成败的关键

上下文工程：AI长任务性能优化的核心策略

突破RISC-V迁移瓶颈：首个RVV适配基准揭示LLM代码迁移潜力，20%通过率提升方案开源

Python开发者的内部工具构建指南：7大神器打造高效企业应用

告别并行编程烦恼：Joblib如何让Python多进程变得优雅高效

发表回复

1. Transformer 与混合专家 (Mixture of Experts)

4. 传统 RAG 与基于智能体的 RAG

5. 传统 RAG 与图结构 RAG (Graph RAG)

6. 传统 RAG 与假设文档嵌入 (HyDE)