Anthropic推出技能评测框架:无需代码即可测试和改进Claude技能

Anthropic 近日为其 Skill Creator 工具推出了全新的评测框架。自去年 10 月以来,他们观察到大多数技能创建者是业务专家而非工程师。他们熟悉自身工作流程,但缺乏有效工具来评估技能是否真正有效、是否能在正确时机触发,以及修改后是否确实带来了改进。

新的评测框架旨在解决这一问题,它将软件开发中的严谨性——包括测试、基准测试和迭代改进——引入了技能开发流程,且整个过程无需编写代码。

Anthropic推出技能评测框架:无需代码即可测试和改进Claude技能

两类技能,不同的测试需求

技能通常可分为两类:

能力提升型技能:这类技能帮助 Claude 完成基础模型无法做到或做不好的任务。例如,Anthropic 的文档创建技能编码了特定的技巧和模式,其效果优于简单的提示词。

编码偏好型技能:这类技能用于记录特定工作流程。Claude 本身能够执行流程中的每个步骤,但技能会按照团队偏好的方式将这些步骤串联起来。例如,按照特定标准审查 NDA 的技能,或从多个数据源汇总生成周报的技能。

区分这两类技能至关重要,因为它们需要测试的原因不同:
* 能力提升型技能可能随着基础模型的改进而变得不再必要。评测可以帮助识别这种情况何时发生。
* 编码偏好型技能的生命周期更长,但其价值取决于对实际工作流程的还原度。评测可以验证这种保真度。

利用评测测试与改进技能

Skill Creator 现在可以帮助用户创建评测。评测即测试,用于检查 Claude 针对给定提示是否输出了符合预期的响应。如果你熟悉软件测试,这个概念会很容易理解:定义一组测试提示(必要时附加文件),并描述何为良好的结果,Skill Creator 便会评估技能是否达标。

以处理 PDF 的技能为例。该技能曾面临处理不可填写表单的挑战,Claude 需要在没有预定义字段引导的情况下,将文本放置在精确坐标上。评测帮助定位了此问题,随后发布的修复方案通过将定位锚定到提取的文本坐标解决了该问题。

评测主要有两大用途:捕获质量回归和了解模型进展。

首先是捕获质量回归。随着模型及其周边基础设施的演进,上个月运行良好的技能在当前环境下可能表现不同。在新模型上运行评测,可以在问题影响团队工作之前提供早期预警。

其次是判断通用模型能力是否已超越你的技能。这主要适用于能力提升型技能。如果基础模型在不加载技能的情况下也能通过你的评测,这可能意味着技能所封装的技术已被整合进模型的默认能力中。技能本身并未失效,只是变得不再必要。

新版本还引入了基准模式,允许使用你的评测集运行标准化评估。你可以在模型更新后或迭代技能本身时运行基准测试。该模式会跟踪评测通过率、耗时和 Token 使用量等指标。

Anthropic推出技能评测框架:无需代码即可测试和改进Claude技能

所有评测及其结果均归用户所有,可以本地存储、集成到仪表板或插入持续集成(CI)系统中。

多智能体支持:更快速、更准确的评测

顺序运行评测可能速度较慢,且累积的上下文可能在多次测试运行之间产生干扰。Skill Creator 现通过多智能体支持启动独立的智能体来并行运行评测,每个智能体都拥有干净的上下文环境及独立的 Token 和计时指标。这不仅加快了评测速度,也避免了交叉污染。

此外,新增的比较器智能体支持进行 A/B 测试比较:例如,比较同一技能的两个版本,或比较使用技能与不使用技能的效果。比较器在不知情的情况下评估输出,从而帮助判断修改是否确实带来了改进。

Anthropic推出技能评测框架:无需代码即可测试和改进Claude技能

确保技能在正确时机触发

评测衡量的是输出质量,但前提是技能能在正确的时机被触发。随着技能数量的增长,技能描述的精确性变得至关重要:描述过于宽泛可能导致误触发,过于狭窄则可能永远不会激活。

Skill Creator 现在可以帮助用户优化技能描述以提高触发的可靠性。它会分析你当前的描述与示例提示,并建议编辑方案,以减少误报(假阳性)和漏报(假阴性)。

Anthropic 在其文档创建技能上运行了此功能,6 个公共技能中有 5 个的触发性能得到了改善。

Anthropic推出技能评测框架:无需代码即可测试和改进Claude技能

小结

随着模型能力的持续提升,“技能”与“规范”之间的界限可能变得模糊。目前,SKILL.md 文件本质上是一个实现计划,它提供详细指令告诉 Claude 如何执行某项任务。未来,或许仅需对技能应完成的任务进行自然语言描述就足够了,模型将自行处理其余部分。

此次发布的评测框架正是迈向该方向的一步。评测本身已经描述了“做什么”。最终,这个描述或许就是技能本身。

所有 Skill Creator 的更新现已面向 Claude.ai 和 Claude for Teams 用户开放。Claude Code 用户可以安装官方插件或从 GitHub 仓库获取。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24610

(0)
上一篇 12小时前
下一篇 2026年2月2日 上午11:24

相关推荐

  • 豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

    豆包近期发布了 doubao-seed-1-8-251215 新版本,官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。 doubao-seed-…

    2025年12月20日
    1.9K00
  • GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用

    OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…

    2025年12月13日
    20900
  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    18600
  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    17200
  • 大模型评测实战:从Benchmark幻象到业务落地的量化艺术

    当我们谈论大模型应用开发时,评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题,却又充满了难以量化的灰色地带。这篇文章,聊聊在实践中对评测的一些观察与思考。 为什么公开Benchmark的参考价值有限 各家模型发布时,漂亮的Benchmark数据总是标配。如果仅看这些数字,似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

    2026年1月8日
    16600