9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

在 AI 工程领域,RAG(检索增强生成)、LLM(大语言模型)和 AI Agent(智能体)是当前最核心的技术方向。本文通过 9 张可视化图表,系统性地解析其核心概念、技术差异与应用场景,旨在帮助读者快速把握技术脉络。

1. Transformer 与 混合专家 (Mixture of Experts)

混合专家(MoE)是一种改进Transformer模型性能的流行架构。其核心思想是通过路由网络动态选择激活不同的“专家”子网络,从而在保持模型总参数量巨大的同时,显著减少单次推理的计算开销。

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

* Transformer:采用固定的前馈神经网络,每次推理时所有参数均被激活。
* 混合专家 (MoE):引入路由网络,根据输入动态选择激活部分专家网络,实现“稀疏激活”,以更少的计算量利用海量参数。

2. 五种 LoRA 微调方法

对大语言模型进行全参数微调成本极高。LoRA(低秩适应)及其变体通过冻结预训练权重、仅训练少量新增参数来实现高效微调。

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

* LoRA:冻结预训练权重矩阵 W,引入低秩适配器矩阵 AB,仅训练 AB
* LoRA-FA:在 LoRA 基础上,将矩阵 A 在初始化后冻结,仅训练矩阵 B,将可训练参数量减半。
* VeRA:不再单独训练 AB,而是将其初始化为共享的随机固定矩阵,转而训练新引入的一对可学习向量 db
* Delta-LoRA:在训练适配器 AB 的同时,利用 A x B 的梯度来更新原始的预训练权重矩阵 W,突破性能瓶颈。
* LoRA+:为适配器矩阵 AB 设置差异化的学习率(通常 lr_B >> lr_A),以提升训练效率和效果。

3. KV 缓存 (Key-Value Cache)

KV 缓存是大模型实现高效文本生成的关键技术。其原理是缓存历史序列计算得到的键(Key)和值(Value)向量,在生成新 token 时直接复用,避免对已生成文本的重复计算。

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

* 核心洞察 1:模型仅需最后一个隐藏状态来预测下一个 token。
* 核心洞察 2:最终的隐藏状态仅依赖于当前的查询向量与之前所有 token 的 Key/Value 向量。
* 结论:缓存历史 K/V 向量可避免重复计算,大幅提升长文本生成效率。

4. 传统 RAG 与 基于智能体的 RAG

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

* 传统 RAG:遵循“检索 → 生成”的固定单轮流程,难以处理需要多步推理或外部信息验证的复杂问题。
* 基于智能体的 RAG:引入智能体决策循环,能够动态进行查询改写、执行多轮检索、调用外部工具(如计算器、搜索引擎),以解决复杂逻辑推理任务。

5. 传统 RAG 与 图结构 RAG (Graph RAG)

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

* 传统 RAG:基于向量相似度的检索方式,擅长查找局部相关文本,但难以捕捉文档间或跨段落的深层实体关系。
* 图结构 RAG:将文档知识构建成知识图谱,通过图遍历和关系推理来回答复杂问题,适用于金融风控、学术研究等需要关系网络分析的场景。

6. 传统 RAG 与 假设文档嵌入 (HyDE)

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

* 传统 RAG:直接使用用户原始查询进行检索,当查询与文档答案在语义表达上差异较大时,检索效果不佳。
* 假设文档嵌入 (HyDE):先让 LLM 根据查询生成一个“假设性答案”或虚拟文档,再用这个假设文档去检索真实文档。通过“查询→假设答案→精准检索”三步法,提升检索的相关性。

7. 五种 RAG 文本切分策略

处理长文档时,有效的文本切分(Chunking)是保障检索质量的基础。不同策略适用于不同场景:

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

* 固定大小切分:按固定字符/Token数分割,简单高效,适合结构化文档(如API文档)。
* 语义切分:按句子或自然段落分割,保持语义完整性,适合书籍、论文。
* 递归切分:采用分层递归的方式,先按大分隔符(如章节)切分,再对小块按更细的分隔符切分,适合结构复杂的报告。
* 结构切分:依据文档的固有结构(如标题、目录)进行切分,适合手册、说明书。
* LLM 辅助切分:利用大模型理解文本内容,智能识别逻辑边界并进行动态切分,适合高度非结构化文本。

8. 智能体五大设计模式

AI Agent 通过特定的设计模式实现“思考-行动-观察”的自主循环。

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

1. 反思模式:生成初步答案后,进行自我校验和修正,迭代优化输出。
2. 工具使用模式:学习调用外部工具(API、数据库、搜索引擎)来获取信息或执行动作。
3. ReAct 模式:将“推理(Reasoning)”和“行动(Acting)”结合在循环中,逐步推理并执行步骤以完成任务。
4. 规划模式:将复杂任务分解为清晰的子任务序列,并按计划逐步执行。
5. 多智能体协作:多个具有不同角色和能力的 Agent 通过通信与协作,共同完成复杂任务。

9. 智能体的五级成熟度

从简单响应到完全自主,智能体的能力可分为不同成熟度等级:

9张图速览大模型核心技术:从Transformer到AI Agent的全面解析

1. 基础响应级:根据提示词生成回复,无状态记忆和规划能力(如早期聊天机器人)。
2. 路由级:能够根据问题类型,将请求路由到最合适的模型或处理流程。
3. 工具调用级:具备主动调用外部工具(如计算器、代码解释器)来解决问题的能力。
4. 多智能体协作级:多个 Agent 分工合作,通过协商共同完成复杂任务。
5. 自主执行级:在给定高级目标后,能够自主进行任务规划、执行、监控和修正,无需人工干预。


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/13784

(0)
上一篇 2025年4月29日 上午11:41
下一篇 2025年6月6日 下午5:14

相关推荐

  • 揭秘RAG排序层:LambdaMART如何成为检索增强生成成败的关键

    那层几乎无人提及、却决定你AI应用成败的排序层。 Google、Netflix、具备联网搜索功能的ChatGPT,它们有何共通之处?都依赖一个排序算法来决定你首先看到什么。它不决定“有什么”,而是决定你“看见什么”。 当我们的团队调试RAG流水线,探究为何它对某些查询返回一堆无关内容时,“排序学习”问题一次次浮现。算法本身不难找到,但几乎没有人在构建AI应用…

    2025年12月9日
    400
  • 上下文工程:AI长任务性能优化的核心策略

    Prompts 确立意图。Context 选择事实、历史和工具输出,让 AI 在长任务中保持连贯。 在 AI 应用的早期,我们沉迷于字词的斟酌。微调一个动词,增加一条约束,观察模型是否按预期响应。这些技巧常常奏效,足以让人以为这是一门手艺。直到任务变得更长、更复杂、涉及更多步骤时,一条安静的真相才浮出水面:措辞固然重要,但模型看到什么 更为关键。 Promp…

    2025年11月7日
    300
  • 突破RISC-V迁移瓶颈:首个RVV适配基准揭示LLM代码迁移潜力,20%通过率提升方案开源

    关键词: RISC-V Vector Intrinsic、Code Migration、Benchmark、Large Language Model、Intrinsic Code VecIntrinBench: Benchmarking Cross-Architecture Intrinsic Code Migration for RISC-V Vector…

    11小时前
    600
  • Python开发者的内部工具构建指南:7大神器打造高效企业应用

    立即构建仪表盘、追踪器与工作流。 对于有经验的 Python 开发者而言,经常会遇到这样的需求:管理层希望快速构建一个内部仪表盘或工具。虽然这听起来颇具挑战,但事实是,企业运营确实离不开各类内部工具,如数据看板、审批流程、KPI 追踪器和自动化机器人。Python 凭借其丰富的生态系统,正是构建这类应用的理想选择。 在经历了多年为不同团队构建内部系统的实践后…

    3天前
    400
  • 告别并行编程烦恼:Joblib如何让Python多进程变得优雅高效

    深夜,当办公室的灯光一盏盏熄灭,总有一块屏幕还在固执地亮着。 一位数据科学家靠在椅背上,目光紧盯着那条几乎停滞的进度条。数据集不大,机器也不差,问题在于 Python 正在忠实地、一个接一个地执行任务。 许多开发者都经历过这样的时刻。此时,“并行处理”的念头极具诱惑力——直到你真正尝试使用 Python 自带的 multiprocessing 模块,才发现它…

    2025年12月2日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注