超越能跑就行：Agent评测的三层四维框架与实战指南

传统 Agent 评测的三大盲区

当前主流的 Agent 评测方式，主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区：

盲区一：只评结果，不评过程
Agent 完成了任务，但中间调用了多次不必要的工具、走了弯路，这种「低效完成」和「高效完成」在传统评测中得分相同。

盲区二：只评能力，不评工程化
Agent 在实验环境表现优秀，但无法部署到生产环境、无法迁移到其他平台、无法被其他系统调用。「能跑通」不等于「能上线」。

盲区三：只评单次，不评稳定性
同样的任务执行多次，成功率如何？失败时的错误模式是什么？能否自动恢复？这些在单次评测中无法体现。

核心观点： 我们需要一套多维度、可量化、可复现的 Agent 评测框架，覆盖从「Skill 定义」到「系统部署」的完整链路。

评测框架：三层 × 四维度模型

基于 Claude Agent SDK 的三层架构，设计一套「三层 × 四维度」的评测框架：

这套框架的设计逻辑是：每一层有其独立的评测目标，同时层与层之间存在依赖关系——Skills 层定义是否完备，影响 Agent 层的决策质量；Agent 层的调度是否合理，也影响 Subagent 层的执行效果。

Skills 层评测：流程完备性

Skills 是 Agent 的「工作手册」，评测重点是：这份手册写得够不够完整？能不能覆盖各种实际场景？

3.1 步骤覆盖率测试

设计测试用例，验证 Skill 定义的每个步骤是否都能被正确执行。

测试用例模板（以「写文章 Skill」为例）
| 步骤 | 测试输入 | 预期行为 | 通过 |
| :— | :— | :— | :— |
| 询问主题 | 「帮我写篇文章」 | Agent 主动询问主题 | ✅ / ❌ |
| 确认读者 | 「写关于 AI 的」 | Agent 询问目标读者 | ✅ / ❌ |
| 提出结构 | 「给技术人员看」 | Agent 提出 3 种结构 | ✅ / ❌ |
| 分段写作 | 「选第 2 种」 | Agent 分段输出并确认 | ✅ / ❌ |

覆盖率 = 通过步骤数 / 总步骤数 × 100%

3.2 异常分支测试

真实场景中，用户行为往往不按「剧本」走。需要测试 Skill 对异常情况的处理能力：
* 异常 1：用户中途取消：写到一半说「算了不写了」，Agent 能否优雅终止并保存草稿？
* 异常 2：用户跳步操作：还没确认结构就说「直接写第三段」，Agent 能否处理？
* 异常 3：输入信息不足：用户只说「写篇文章」不给任何细节，Agent 能否引导澄清？
* 异常 4：需求中途变更：写到一半说「换个主题」，Agent 能否正确处理状态重置？

3.3 Skill 冲突测试

当用户输入可能同时触发多个 Skill 时，系统如何处理？
测试场景示例：
用户说「帮我写一篇介绍这个网页的文章」—— 这同时触发了「写文章 Skill」和「抓取网页 Skill」。Agent 应该：先抓取网页内容 → 再启动写文章流程，而不是两个 Skill 并行冲突。

Skills 层评测指标汇总：
* 步骤覆盖率 ≥ 95%（基本要求）
* 异常分支处理率 ≥ 80%（良好）
* Skill 冲突正确解决率 ≥ 90%（优秀）

Agent 层评测：决策准确性

Agent 是系统的「大脑」，评测重点是：它能不能正确理解用户意图？能不能选对工具和 Skill？

4.1 意图识别准确率

构建意图分类数据集，测试 Agent 对用户意图的理解能力。

意图识别测试集示例
| 用户输入 | 正确意图 | Agent 识别 |
| :— | :— | :— |
| 「帮我写篇公众号文章」 | 写文章 | ✅ / ❌ |
| 「这个网页讲了什么」 | 抓取+摘要 | ✅ / ❌ |
| 「给这段话配张图」 | 生成图片 | ✅ / ❌ |
| 「把刚才的文章发出去」 | 发布公众号 | ✅ / ❌ |
| 「做个播客聊聊 AI」 | 生成播客 | ✅ / ❌ |

准确率 = 正确识别数 / 总测试数 × 100% （建议测试集 ≥ 100 条）

4.2 工具选择合理性

即使意图识别正确，Agent 是否选择了最优的工具组合？
* 场景： 用户说「总结这篇论文的核心观点」
* ❌ 次优选择： 直接让 LLM 总结（可能产生幻觉）
* ✅ 最优选择： 先用 PDF 解析工具提取文本 → 再让 LLM 总结
* 场景： 用户说「查一下特斯拉今天的股价」
* ❌ 次优选择： 用通用搜索工具
* ✅ 最优选择： 调用股票 API 工具（更准确、更快）

4.3 多轮对话一致性

在长对话中，Agent 是否能保持对上下文的理解？是否会「遗忘」之前的信息？
多轮一致性测试
* Turn 1 用户： 帮我写一篇关于 Transformer 的文章，目标读者是 AI 初学者
* Turn 1 Agent： 好的，我来为 AI 初学者写一篇 Transformer 入门文章…
* Turn 5 用户： 这段太难了，简化一下
* 测试点： Agent 是否还记得目标读者是「AI 初学者」？是否按初学者水平简化？

Agent 层评测指标汇总：
* 意图识别准确率 ≥ 90%（基本要求）
* 工具选择最优率 ≥ 85%（良好）
* 多轮一致性保持率 ≥ 95%（优秀）

Subagent 层评测：执行可靠性

Subagent 是具体干活的「临时工」，评测重点是：它能不能稳定完成任务？会不会相互干扰？出错了能不能恢复？

5.1 上下文隔离测试

多个 Subagent 并行执行时，是否会发生「上下文污染」？
污染场景示例：
同时让两个 Subagent 写文章：A 写「AI 入门」、B 写「区块链入门」。如果 B 的输出中出现了 AI 相关内容，说明发生了上下文污染。

上下文隔离测试方法
1. 同时启动 N 个 Subagent，每个处理不同主题的任务
2. 收集所有输出，检查是否存在「串台」内容
3. 计算污染率 = 发生污染的任务数 / 总任务数

上下文污染率应 ≤ 1%，否则系统不可用于生产环境

5.2 并发稳定性测试

当多个 Subagent 同时运行时，系统是否稳定？

| 并发数 | 成功率 | 平均延迟 | 资源占用 |
| :— | :— | :— | :— |
| 1 | 99% | 2.3s | 正常 |
| 5 | 98% | 3.1s | 正常 |
| 10 | 95% | 5.8s | 偏高 |
| 20 | 82% | 12.4s | 过载 |

当 Subagent 执行失败时，系统如何处理？

测试 1：工具调用失败
图片生成 API 超时，系统是否重试？重试几次后放弃？

测试 2：部分失败
3 张配图只生成了 2 张，系统是否告知用户并提供降级方案？

测试 3：级联失败
一个 Subagent 失败是否会导致整个流程崩溃？

Subagent 层评测指标汇总：
* 上下文污染率 ≤ 1%（红线）
* 并发 10 时成功率 ≥ 95%（基本要求）
* 错误恢复成功率 ≥ 80%（良好）

PART 06：工程化成熟度评测：从实验室到生产环境

前面三层评测的是「能力」，这一层评测的是「能否上线」。一个 Agent 系统即使功能完美，如果无法部署、无法监控、成本失控，也毫无价值。

6.1 四维度评分卡

工程化成熟度评分卡（满分 100）

可部署性（25分）
| 评测项 | 分值 |
| :— | :— |
| 能否容器化部署（Docker/K8s） | 0-8 分 |
| 能否 CI/CD 自动化发布 | 0-8 分 |
| 依赖管理是否清晰（无隐式依赖） | 0-9 分 |

可迁移性（25分）
| 评测项 | 分值 |
| :— | :— |
| 换底层模型的改造成本 | 0-10 分 |
| 换运行环境的改造成本 | 0-8 分 |
| Skills 能否被其他系统复用 | 0-7 分 |

可观测性（25分）
| 评测项 | 分值 |
| :— | :— |
| 日志是否完整可追溯 | 0-8 分 |
| 是否有链路追踪（Tracing） | 0-9 分 |
| 是否有关键指标监控（Metrics） | 0-8 分 |

成本效率（25分）
| 评测项 | 分值 |
| :— | :— |
| 单次任务平均 Token 消耗 | 0-10 分 |
| 端到端延迟是否可接受 | 0-8 分 |
| 是否有成本优化机制（缓存/压缩） | 0-7 分 |

6.2 评分等级标准

| 总分 | 等级 | 说明 |
| :— | :— | :— |
| 90-100 | 生产就绪 | 可直接上线，满足企业级要求 |
| 70-89 | 基本可用 | 可上线但需监控，适合内部使用 |
| 50-69 | 需要改进 | 存在明显短板，仅适合 Demo |
| < 50 | 不可用 | 仅适合实验室环境 |

全文总结：Agent 评测方法论

框架：三层（Skills / Agent / Subagent）× 四维度（流程完备性 / 决策准确性 / 执行可靠性 / 工程化成熟度）
核心指标：步骤覆盖率、意图识别准确率、上下文污染率、工程化成熟度评分
关键洞察：传统评测只看「任务完成率」，忽略了过程效率、工程化、稳定性
行动建议：用本文的评分卡评测你的 Agent 系统，找出短板，针对性优化

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19358