
自 Kimi K2 发布以来,Kimi开放平台收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。
用户在选择 API 服务商时,往往优先考虑延迟和成本,却可能无意中忽略了更微妙却关键的模型精度差异。
因此,Kimi开放平台推出了 K2 Vendor Verifier 项目,一方面为用户挑选 API 服务商提供参考,另一方面旨在帮助模型服务商打造更加一致且高性能的 API 体验。
鉴于 ToolCall 能力是模型 Agent 性能的重要指标,也是 Kimi K2 模型的关键优势,它成为了 K2 Vendor Verifier 项目的第一项基准测试。目前,该项目已更新了 ToolCall 基准测试的最新一期评测结果,共有 12 家第三方 API 服务商参与其中。评估结果如下:

表中每项指标的定义如下:

本次测试基于一个包含 4000 条数据的测试集,通过收集每个服务商的响应并与 Kimi K2 官方 API 进行对比得出上述评估结果。项目已在 GitHub 上开源了 50% 的测试数据(位于 samples.jsonl 文件),方便 API 服务商自行测试和复现。如果希望加入 ToolCall 性能评估,欢迎在 GitHub 项目页留言。
- 阿里qwen3-next-80b-a3b-instruct实测
- 姚顺雨成名作“智能体评测集τ-bench”上手指南
- DeepSeek-V3.2-Exp非思考模式实测
- DeepSeek-V3.2-Exp思考模式实测:开源模型王者
- 深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
- 每月AI大模型更新速递(25年9月)
- 每周AI大模型更新速递10.1~10.12
- 大模型智能体评测综述【Benchmarks解读】
关于大模型评测诊断NoneLinear
https://nonelinear.com
- 评测榜单——已囊括300+大模型、300+评测维度,每周更新大模型评测结果
- 模型选型降本——一键选出最合适模型,效果更优,成本降低50%以上
- 智能模型超市——统一API,一键调用全球所有大模型,GPT5 / Gemini2.5 / Claude4.5免费体验,高并发,自动故障切换,实时监控模型调用效果

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14731
