Anthropic 近日为其 Skill Creator 工具推出了全新的评测框架。自去年 10 月以来,他们观察到大多数技能创建者是业务专家而非工程师。他们熟悉自身工作流程,但缺乏有效工具来评估技能是否真正有效、是否能在正确时机触发,以及修改后是否确实带来了改进。
新的评测框架旨在解决这一问题,它将软件开发中的严谨性——包括测试、基准测试和迭代改进——引入了技能开发流程,且整个过程无需编写代码。

两类技能,不同的测试需求
技能通常可分为两类:
能力提升型技能:这类技能帮助 Claude 完成基础模型无法做到或做不好的任务。例如,Anthropic 的文档创建技能编码了特定的技巧和模式,其效果优于简单的提示词。
编码偏好型技能:这类技能用于记录特定工作流程。Claude 本身能够执行流程中的每个步骤,但技能会按照团队偏好的方式将这些步骤串联起来。例如,按照特定标准审查 NDA 的技能,或从多个数据源汇总生成周报的技能。
区分这两类技能至关重要,因为它们需要测试的原因不同:
* 能力提升型技能可能随着基础模型的改进而变得不再必要。评测可以帮助识别这种情况何时发生。
* 编码偏好型技能的生命周期更长,但其价值取决于对实际工作流程的还原度。评测可以验证这种保真度。
利用评测测试与改进技能
Skill Creator 现在可以帮助用户创建评测。评测即测试,用于检查 Claude 针对给定提示是否输出了符合预期的响应。如果你熟悉软件测试,这个概念会很容易理解:定义一组测试提示(必要时附加文件),并描述何为良好的结果,Skill Creator 便会评估技能是否达标。
以处理 PDF 的技能为例。该技能曾面临处理不可填写表单的挑战,Claude 需要在没有预定义字段引导的情况下,将文本放置在精确坐标上。评测帮助定位了此问题,随后发布的修复方案通过将定位锚定到提取的文本坐标解决了该问题。
评测主要有两大用途:捕获质量回归和了解模型进展。
首先是捕获质量回归。随着模型及其周边基础设施的演进,上个月运行良好的技能在当前环境下可能表现不同。在新模型上运行评测,可以在问题影响团队工作之前提供早期预警。
其次是判断通用模型能力是否已超越你的技能。这主要适用于能力提升型技能。如果基础模型在不加载技能的情况下也能通过你的评测,这可能意味着技能所封装的技术已被整合进模型的默认能力中。技能本身并未失效,只是变得不再必要。
新版本还引入了基准模式,允许使用你的评测集运行标准化评估。你可以在模型更新后或迭代技能本身时运行基准测试。该模式会跟踪评测通过率、耗时和 Token 使用量等指标。

所有评测及其结果均归用户所有,可以本地存储、集成到仪表板或插入持续集成(CI)系统中。
多智能体支持:更快速、更准确的评测
顺序运行评测可能速度较慢,且累积的上下文可能在多次测试运行之间产生干扰。Skill Creator 现通过多智能体支持启动独立的智能体来并行运行评测,每个智能体都拥有干净的上下文环境及独立的 Token 和计时指标。这不仅加快了评测速度,也避免了交叉污染。
此外,新增的比较器智能体支持进行 A/B 测试比较:例如,比较同一技能的两个版本,或比较使用技能与不使用技能的效果。比较器在不知情的情况下评估输出,从而帮助判断修改是否确实带来了改进。

确保技能在正确时机触发
评测衡量的是输出质量,但前提是技能能在正确的时机被触发。随着技能数量的增长,技能描述的精确性变得至关重要:描述过于宽泛可能导致误触发,过于狭窄则可能永远不会激活。
Skill Creator 现在可以帮助用户优化技能描述以提高触发的可靠性。它会分析你当前的描述与示例提示,并建议编辑方案,以减少误报(假阳性)和漏报(假阴性)。
Anthropic 在其文档创建技能上运行了此功能,6 个公共技能中有 5 个的触发性能得到了改善。

小结
随着模型能力的持续提升,“技能”与“规范”之间的界限可能变得模糊。目前,SKILL.md 文件本质上是一个实现计划,它提供详细指令告诉 Claude 如何执行某项任务。未来,或许仅需对技能应完成的任务进行自然语言描述就足够了,模型将自行处理其余部分。
此次发布的评测框架正是迈向该方向的一步。评测本身已经描述了“做什么”。最终,这个描述或许就是技能本身。
所有 Skill Creator 的更新现已面向 Claude.ai 和 Claude for Teams 用户开放。Claude Code 用户可以安装官方插件或从 GitHub 仓库获取。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24610
