PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

一个评估大模型在“养虾”(OpenClaw)任务中表现的基准——PinchBench,现已正式发布。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

该基准获得了OpenClaw项目创始人的关注与转发。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度,综合评估各大模型在OpenClaw实际业务场景中的表现。

需要指出的是,本次评测尚未包含近期发布的新模型,例如谷歌主打性价比与速度的Gemini 3.1 Flash-Lite,以及社区评价认为非常适合龙虾养殖任务的、OpenAI最新发布的GPT-5.4。不过,OpenClaw现已支持这两个模型。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

那么,在此之前的模型中,哪一款最适合“养虾”任务呢?

数据揭示各家模型真实水平

在成功率榜单中,谷歌的gemini-3-flash-preview以95.1%的极高成功率位居榜首。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

紧随其后的是MiniMax的minimax-m2.1和月之暗面的Kimi-k2.5,成功率分别为93.6%和93.4%。值得注意的是,minimax-m2.5的成功率仅为35.5%,表现意外。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

在任务完成速度方面,minimax-m2.5以105.96秒的成绩夺得冠军。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

谷歌的gemini-2.0-flash和Meta的llama-3.1-70b紧随其后,耗时均在106秒左右。部分以深度思考见长的模型因需要更多计算时间,在速度排名上相对靠后。而成功率前三的模型,其速度排名则在20名之后。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

每次调用的资金成本是开发者关注的核心。在成本榜单上,OpenAI的gpt-5-nano展现出极致的性价比,单次最优运行成本仅需0.03美元。谷歌的gemini-2.5-flash-lite以0.05美元紧随其后。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

整体来看,排名前八的轻量化模型每次任务成本均控制在0.2美元以内,其中就包括了成功率位列前三的minimax-m2.1Kimi-k2.5。相比之下,那些单次调用成本接近一美元的重型模型,在处理日常任务时经济性不足。

综合性能、成本和速度三个维度,minimax-m2.1Kimi-k2.5均落在最佳区间。此外,国产模型glm-4.5-airqwen3-coder-next也位于该区间,是不错的选择。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平 PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

完全贴合真实工作场景的考试

这些精准数据背后,是一套极其严谨的评测系统。PinchBench基准不同于传统的选择题式跑分,它更像是一个模拟真实办公环境的试炼场。

系统将各类语言模型接入特定代理框架,使其成为独立的数字员工。考官为这些数字员工分发相同的实际工作任务,系统全程记录耗时与成本,并严格按标准答案核对成果。

为保证评测标准化,所有任务均以特定格式的文本文件编写,并统一存放于代码仓库中。

一份合格的“考卷”包含五个核心部分:

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

  1. 拟真的用户原始诉求作为提示词。
  2. 清晰描述完成任务可接受的办事思路和关键决策点
  3. 一份类似于检查清单的独立且可验证的评分标准
  4. 自动运行的Python脚本,用于检查生成的文件和工作日志。
  5. 对于无法代码判断的主观题,由Claude Opus模型担任主观题裁判

目前题库共包含23项实操任务。

PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平 PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

这些任务覆盖白领日常工作的方方面面:
* 基础测试:检查智能体能否理解指令并礼貌回应。
* 行政助理:根据口语化要求生成格式正确的日历文件。
* 研究员:利用网络搜索工具获取股票最新价格并撰写报告,或搜集整理科技会议信息。
* 程序员:编写具备错误处理能力的天气查询脚本,或按规范创建项目文件夹结构。
* 文字工作:概括长篇技术文档核心要点,或将生涩论文改写成面向儿童的科普故事。
* 人际交往:撰写委婉拒绝会议邀请并提供替代方案的邮件,或测试长线记忆与信息回顾能力。

评分采用三种方式:
1. 机器自动打分:检查特定文件或代码函数是否生成。
2. 裁判打分:针对主观题,由裁判模型根据细则评估内容质量与得体程度。
3. 混合评分:先由机器检查客观事实,再由裁判评估文字质量。

代码提交哈希值锁定评测版本

为防止考题被篡改,系统引入了严格的版本控制机制。每次测试运行,都会记录当前题库代码的唯一加密标识(提交哈希值),相当于为每次考试盖上精确的时间戳。

题库仓库的任何改动都会生成新的加密标识。这使得榜单成绩都能精准追溯到具体的考题和评分标准版本,杜绝暗箱操作。

系统也具备一定的灵活性:仅修改文档或配置文件等不影响考题难度的改动,成绩仍可纳入现行榜单比较。但一旦修改提示词、评分标准或检查逻辑代码,系统将开启全新评测世代,旧版本成绩则归档为历史记录。

这种机制维护了一部完整的“考试编年史”,旧成绩永久保存,可供随时查阅对比。

在人工智能快速发展的今天,仅凭抽象跑分已不足以衡量模型价值。将其置于真实、繁杂的业务场景中,精确计算其效率与成本,才是检验其实用性的终极标准。

参考资料:
* https://pinchbench.com/
* https://github.com/pinchbench/skill


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25016

(0)
上一篇 1天前
下一篇 23小时前

相关推荐

  • SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

    如今,大模型在理解、推理、编程等方面表现突出,但AI的“科学通用能力” (SGI) 尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力 (如学科问答、单步工具操作) ,难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型 (PIM) ,将科学探究拆解为四个循环阶段,并与AI能力维度对应: 审思/…

    2025年12月27日
    75000
  • Kimi K2 ToolCall性能大揭秘:12家服务商评测结果出炉,开源测试集助力API一致性优化

    自 Kimi K2 发布以来,Kimi开放平台收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。 用户在选择 API 服务商时,往往优先考虑延迟和成本,却可能无意中忽略了更微妙却关键的模型精度差异。 因此,Kimi开…

    2025年10月16日
    21300
  • GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

    OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现:* 测试题数:约1.5万* 总分(准确率):64.3%* 平均耗时(每次调…

    2025年12月17日
    24200
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    18600
  • MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

    MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…

    2025年12月24日
    1.3K00