在 AI 工程领域,RAG(检索增强生成)、LLM(大语言模型)和 AI Agent(智能体)是当前最核心的技术方向。本文通过 9 张可视化图表,系统性地解析其核心概念、技术差异与应用场景,旨在帮助读者快速把握技术脉络。
1. Transformer 与 混合专家 (Mixture of Experts)
混合专家(MoE)是一种改进Transformer模型性能的流行架构。其核心思想是通过路由网络动态选择激活不同的“专家”子网络,从而在保持模型总参数量巨大的同时,显著减少单次推理的计算开销。

* Transformer:采用固定的前馈神经网络,每次推理时所有参数均被激活。
* 混合专家 (MoE):引入路由网络,根据输入动态选择激活部分专家网络,实现“稀疏激活”,以更少的计算量利用海量参数。
2. 五种 LoRA 微调方法
对大语言模型进行全参数微调成本极高。LoRA(低秩适应)及其变体通过冻结预训练权重、仅训练少量新增参数来实现高效微调。

* LoRA:冻结预训练权重矩阵 W,引入低秩适配器矩阵 A 和 B,仅训练 A 和 B。
* LoRA-FA:在 LoRA 基础上,将矩阵 A 在初始化后冻结,仅训练矩阵 B,将可训练参数量减半。
* VeRA:不再单独训练 A 和 B,而是将其初始化为共享的随机固定矩阵,转而训练新引入的一对可学习向量 d 和 b。
* Delta-LoRA:在训练适配器 A 和 B 的同时,利用 A x B 的梯度来更新原始的预训练权重矩阵 W,突破性能瓶颈。
* LoRA+:为适配器矩阵 A 和 B 设置差异化的学习率(通常 lr_B >> lr_A),以提升训练效率和效果。
3. KV 缓存 (Key-Value Cache)
KV 缓存是大模型实现高效文本生成的关键技术。其原理是缓存历史序列计算得到的键(Key)和值(Value)向量,在生成新 token 时直接复用,避免对已生成文本的重复计算。

* 核心洞察 1:模型仅需最后一个隐藏状态来预测下一个 token。
* 核心洞察 2:最终的隐藏状态仅依赖于当前的查询向量与之前所有 token 的 Key/Value 向量。
* 结论:缓存历史 K/V 向量可避免重复计算,大幅提升长文本生成效率。
4. 传统 RAG 与 基于智能体的 RAG

* 传统 RAG:遵循“检索 → 生成”的固定单轮流程,难以处理需要多步推理或外部信息验证的复杂问题。
* 基于智能体的 RAG:引入智能体决策循环,能够动态进行查询改写、执行多轮检索、调用外部工具(如计算器、搜索引擎),以解决复杂逻辑推理任务。
5. 传统 RAG 与 图结构 RAG (Graph RAG)

* 传统 RAG:基于向量相似度的检索方式,擅长查找局部相关文本,但难以捕捉文档间或跨段落的深层实体关系。
* 图结构 RAG:将文档知识构建成知识图谱,通过图遍历和关系推理来回答复杂问题,适用于金融风控、学术研究等需要关系网络分析的场景。
6. 传统 RAG 与 假设文档嵌入 (HyDE)

* 传统 RAG:直接使用用户原始查询进行检索,当查询与文档答案在语义表达上差异较大时,检索效果不佳。
* 假设文档嵌入 (HyDE):先让 LLM 根据查询生成一个“假设性答案”或虚拟文档,再用这个假设文档去检索真实文档。通过“查询→假设答案→精准检索”三步法,提升检索的相关性。
7. 五种 RAG 文本切分策略
处理长文档时,有效的文本切分(Chunking)是保障检索质量的基础。不同策略适用于不同场景:

* 固定大小切分:按固定字符/Token数分割,简单高效,适合结构化文档(如API文档)。
* 语义切分:按句子或自然段落分割,保持语义完整性,适合书籍、论文。
* 递归切分:采用分层递归的方式,先按大分隔符(如章节)切分,再对小块按更细的分隔符切分,适合结构复杂的报告。
* 结构切分:依据文档的固有结构(如标题、目录)进行切分,适合手册、说明书。
* LLM 辅助切分:利用大模型理解文本内容,智能识别逻辑边界并进行动态切分,适合高度非结构化文本。
8. 智能体五大设计模式
AI Agent 通过特定的设计模式实现“思考-行动-观察”的自主循环。

1. 反思模式:生成初步答案后,进行自我校验和修正,迭代优化输出。
2. 工具使用模式:学习调用外部工具(API、数据库、搜索引擎)来获取信息或执行动作。
3. ReAct 模式:将“推理(Reasoning)”和“行动(Acting)”结合在循环中,逐步推理并执行步骤以完成任务。
4. 规划模式:将复杂任务分解为清晰的子任务序列,并按计划逐步执行。
5. 多智能体协作:多个具有不同角色和能力的 Agent 通过通信与协作,共同完成复杂任务。
9. 智能体的五级成熟度
从简单响应到完全自主,智能体的能力可分为不同成熟度等级:

1. 基础响应级:根据提示词生成回复,无状态记忆和规划能力(如早期聊天机器人)。
2. 路由级:能够根据问题类型,将请求路由到最合适的模型或处理流程。
3. 工具调用级:具备主动调用外部工具(如计算器、代码解释器)来解决问题的能力。
4. 多智能体协作级:多个 Agent 分工合作,通过协商共同完成复杂任务。
5. 自主执行级:在给定高级目标后,能够自主进行任务规划、执行、监控和修正,无需人工干预。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/13784
