
传统 Agent 评测的三大盲区
当前主流的 Agent 评测方式,主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区:
盲区一:只评结果,不评过程
Agent 完成了任务,但中间调用了多次不必要的工具、走了弯路,这种「低效完成」和「高效完成」在传统评测中得分相同。
盲区二:只评能力,不评工程化
Agent 在实验环境表现优秀,但无法部署到生产环境、无法迁移到其他平台、无法被其他系统调用。「能跑通」不等于「能上线」。
盲区三:只评单次,不评稳定性
同样的任务执行多次,成功率如何?失败时的错误模式是什么?能否自动恢复?这些在单次评测中无法体现。
核心观点: 我们需要一套多维度、可量化、可复现的 Agent 评测框架,覆盖从「Skill 定义」到「系统部署」的完整链路。
评测框架:三层 × 四维度模型
基于 Claude Agent SDK 的三层架构,设计一套「三层 × 四维度」的评测框架:
| 评测层级 | 核心维度 | 关键指标 |
| :— | :— | :— |
| Skills 层 | 流程完备性 | 步骤覆盖率、异常分支处理率、Skill 冲突解决率 |
| Agent 层 | 决策准确性 | 意图识别准确率、工具选择合理性、Skill 路由准确率 |
| Subagent 层 | 执行可靠性 | 任务完成率、上下文污染率、错误恢复率 |
| 系统整体 | 工程化成熟度 | 可部署性、可迁移性、可观测性、成本效率 |
这套框架的设计逻辑是:每一层有其独立的评测目标,同时层与层之间存在依赖关系——Skills 层定义是否完备,影响 Agent 层的决策质量;Agent 层的调度是否合理,也影响 Subagent 层的执行效果。
Skills 层评测:流程完备性
Skills 是 Agent 的「工作手册」,评测重点是:这份手册写得够不够完整?能不能覆盖各种实际场景?
3.1 步骤覆盖率测试
设计测试用例,验证 Skill 定义的每个步骤是否都能被正确执行。
测试用例模板(以「写文章 Skill」为例)
| 步骤 | 测试输入 | 预期行为 | 通过 |
| :— | :— | :— | :— |
| 询问主题 | 「帮我写篇文章」 | Agent 主动询问主题 | ✅ / ❌ |
| 确认读者 | 「写关于 AI 的」 | Agent 询问目标读者 | ✅ / ❌ |
| 提出结构 | 「给技术人员看」 | Agent 提出 3 种结构 | ✅ / ❌ |
| 分段写作 | 「选第 2 种」 | Agent 分段输出并确认 | ✅ / ❌ |
覆盖率 = 通过步骤数 / 总步骤数 × 100%
3.2 异常分支测试
真实场景中,用户行为往往不按「剧本」走。需要测试 Skill 对异常情况的处理能力:
* 异常 1:用户中途取消:写到一半说「算了不写了」,Agent 能否优雅终止并保存草稿?
* 异常 2:用户跳步操作:还没确认结构就说「直接写第三段」,Agent 能否处理?
* 异常 3:输入信息不足:用户只说「写篇文章」不给任何细节,Agent 能否引导澄清?
* 异常 4:需求中途变更:写到一半说「换个主题」,Agent 能否正确处理状态重置?
3.3 Skill 冲突测试
当用户输入可能同时触发多个 Skill 时,系统如何处理?
测试场景示例:
用户说「帮我写一篇介绍这个网页的文章」—— 这同时触发了「写文章 Skill」和「抓取网页 Skill」。Agent 应该:先抓取网页内容 → 再启动写文章流程,而不是两个 Skill 并行冲突。
Skills 层评测指标汇总:
* 步骤覆盖率 ≥ 95%(基本要求)
* 异常分支处理率 ≥ 80%(良好)
* Skill 冲突正确解决率 ≥ 90%(优秀)
Agent 层评测:决策准确性
Agent 是系统的「大脑」,评测重点是:它能不能正确理解用户意图?能不能选对工具和 Skill?
4.1 意图识别准确率
构建意图分类数据集,测试 Agent 对用户意图的理解能力。
意图识别测试集示例
| 用户输入 | 正确意图 | Agent 识别 |
| :— | :— | :— |
| 「帮我写篇公众号文章」 | 写文章 | ✅ / ❌ |
| 「这个网页讲了什么」 | 抓取+摘要 | ✅ / ❌ |
| 「给这段话配张图」 | 生成图片 | ✅ / ❌ |
| 「把刚才的文章发出去」 | 发布公众号 | ✅ / ❌ |
| 「做个播客聊聊 AI」 | 生成播客 | ✅ / ❌ |
准确率 = 正确识别数 / 总测试数 × 100% (建议测试集 ≥ 100 条)
4.2 工具选择合理性
即使意图识别正确,Agent 是否选择了最优的工具组合?
* 场景: 用户说「总结这篇论文的核心观点」
* ❌ 次优选择: 直接让 LLM 总结(可能产生幻觉)
* ✅ 最优选择: 先用 PDF 解析工具提取文本 → 再让 LLM 总结
* 场景: 用户说「查一下特斯拉今天的股价」
* ❌ 次优选择: 用通用搜索工具
* ✅ 最优选择: 调用股票 API 工具(更准确、更快)
4.3 多轮对话一致性
在长对话中,Agent 是否能保持对上下文的理解?是否会「遗忘」之前的信息?
多轮一致性测试
* Turn 1 用户: 帮我写一篇关于 Transformer 的文章,目标读者是 AI 初学者
* Turn 1 Agent: 好的,我来为 AI 初学者写一篇 Transformer 入门文章…
* Turn 5 用户: 这段太难了,简化一下
* 测试点: Agent 是否还记得目标读者是「AI 初学者」?是否按初学者水平简化?
Agent 层评测指标汇总:
* 意图识别准确率 ≥ 90%(基本要求)
* 工具选择最优率 ≥ 85%(良好)
* 多轮一致性保持率 ≥ 95%(优秀)
Subagent 层评测:执行可靠性
Subagent 是具体干活的「临时工」,评测重点是:它能不能稳定完成任务?会不会相互干扰?出错了能不能恢复?
5.1 上下文隔离测试
多个 Subagent 并行执行时,是否会发生「上下文污染」?
污染场景示例:
同时让两个 Subagent 写文章:A 写「AI 入门」、B 写「区块链入门」。如果 B 的输出中出现了 AI 相关内容,说明发生了上下文污染。
上下文隔离测试方法
1. 同时启动 N 个 Subagent,每个处理不同主题的任务
2. 收集所有输出,检查是否存在「串台」内容
3. 计算污染率 = 发生污染的任务数 / 总任务数
上下文污染率应 ≤ 1%,否则系统不可用于生产环境
5.2 并发稳定性测试
当多个 Subagent 同时运行时,系统是否稳定?
| 并发数 | 成功率 | 平均延迟 | 资源占用 |
| :— | :— | :— | :— |
| 1 | 99% | 2.3s | 正常 |
| 5 | 98% | 3.1s | 正常 |
| 10 | 95% | 5.8s | 偏高 |
| 20 | 82% | 12.4s | 过载 |
当 Subagent 执行失败时,系统如何处理?
测试 1:工具调用失败
图片生成 API 超时,系统是否重试?重试几次后放弃?
测试 2:部分失败
3 张配图只生成了 2 张,系统是否告知用户并提供降级方案?
测试 3:级联失败
一个 Subagent 失败是否会导致整个流程崩溃?
Subagent 层评测指标汇总:
* 上下文污染率 ≤ 1%(红线)
* 并发 10 时成功率 ≥ 95%(基本要求)
* 错误恢复成功率 ≥ 80%(良好)
PART 06:工程化成熟度评测:从实验室到生产环境
前面三层评测的是「能力」,这一层评测的是「能否上线」。一个 Agent 系统即使功能完美,如果无法部署、无法监控、成本失控,也毫无价值。
6.1 四维度评分卡
工程化成熟度评分卡(满分 100)
可部署性(25分)
| 评测项 | 分值 |
| :— | :— |
| 能否容器化部署(Docker/K8s) | 0-8 分 |
| 能否 CI/CD 自动化发布 | 0-8 分 |
| 依赖管理是否清晰(无隐式依赖) | 0-9 分 |
可迁移性(25分)
| 评测项 | 分值 |
| :— | :— |
| 换底层模型的改造成本 | 0-10 分 |
| 换运行环境的改造成本 | 0-8 分 |
| Skills 能否被其他系统复用 | 0-7 分 |
可观测性(25分)
| 评测项 | 分值 |
| :— | :— |
| 日志是否完整可追溯 | 0-8 分 |
| 是否有链路追踪(Tracing) | 0-9 分 |
| 是否有关键指标监控(Metrics) | 0-8 分 |
成本效率(25分)
| 评测项 | 分值 |
| :— | :— |
| 单次任务平均 Token 消耗 | 0-10 分 |
| 端到端延迟是否可接受 | 0-8 分 |
| 是否有成本优化机制(缓存/压缩) | 0-7 分 |
6.2 评分等级标准
| 总分 | 等级 | 说明 |
| :— | :— | :— |
| 90-100 | 生产就绪 | 可直接上线,满足企业级要求 |
| 70-89 | 基本可用 | 可上线但需监控,适合内部使用 |
| 50-69 | 需要改进 | 存在明显短板,仅适合 Demo |
| < 50 | 不可用 | 仅适合实验室环境 |
全文总结:Agent 评测方法论
- 框架:三层(Skills / Agent / Subagent)× 四维度(流程完备性 / 决策准确性 / 执行可靠性 / 工程化成熟度)
- 核心指标:步骤覆盖率、意图识别准确率、上下文污染率、工程化成熟度评分
- 关键洞察:传统评测只看「任务完成率」,忽略了过程效率、工程化、稳定性
- 行动建议:用本文的评分卡评测你的 Agent 系统,找出短板,针对性优化
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19358
