月之暗面近期发布了Kimi-K2-Thinking模型,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力。作为一款MoE架构模型(每次激活32B参数),我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
Kimi-K2-Thinking版本表现:
* 测试题数:约1.5万
* 【总分】准确率:67.9%
* 平均耗时(每次调用):333s
* 平均消耗token(每次调用):5732
* 花费/千次调用(元):89.2
* 输出价格:16.0元/M token
1、基础版本能力对比
首先对比基础版本kimi-k2-0711-preview,数据如下:


数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
- 整体性能显著提升:Kimi-K2-Thinking准确率达到67.9%,相比基础版本kimi-k2-0711-preview的63.4%提升了4.5个百分点,排名从第28位跃升至第7位,实现了21个位次的大幅进步。
- 推理能力突破性增强:思考模式带来的最大收益体现在“推理与数学计算能力”上,从55.0%大幅提升至73.7%,增幅高达18.7个百分点。
- Agent能力显著强化:“agent与工具调用”能力从56.0%提升至68.0%,增幅达12.0个百分点,印证了“边思考,边使用工具”的设计理念确实带来了实质性的能力提升。
- 部分领域出现权衡:值得注意的是,部分领域出现了性能回退。“金融”领域从78.6%下降至71.9%(-6.7%),“法律与行政公务”从78.7%降至72.3%(-6.4%),“语言与指令遵从”从69.8%降至63.4%(-6.4%),“医疗与心理健康”也从80.5%降至77.7%(-2.8%)。这表明思考模式在提升复杂推理能力的同时,对某些依赖知识检索的任务可能存在过度思考的问题。
2、对比其他旗舰模型
在当前主流大模型竞争格局中,Kimi-K2-Thinking作为月之暗面的新旗舰模型表现如何?我们从多个维度进行横向对比分析:

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
新模型之间的对比
* 排名位居中上游:在本次评测的新模型中,从综合总分来看,Kimi-K2-Thinking以67.9%的准确率排名第7,处于中游偏上位置。领先于GLM-4.5(66.9%)、qwen3-max-preview(66.5%)等模型,但落后于doubao-seed-1-6-thinking-250715(71.7%)、DeepSeek-V3.2-Exp-Think(70.1%)等头部选手。
* 思考模型竞争激烈:作为thinking模式的代表,Kimi-K2-Thinking综合的67.9%准确率落后于doubao-seed-1-6-thinking-250715(71.7%)3.8个百分点,也落后于DeepSeek-V3.2-Exp-Think(70.1%)2.2个百分点,在思考模型阵营中,以综合得分来看,尚未取得领先地位。
开源VS闭源对比
* 开源阵营表现亮眼:作为开源模型,Kimi-K2-Thinking的67.9%准确率在开源模型中表现出色,超越了DeepSeek-V3.1-Think(67.7%)、GLM-4.5(66.9%)等同阵营选手。
* 相比闭源模型仍有差距:与头部闭源模型相比,Kimi-K2-Thinking落后于o4-mini(69.0%)1.1个百分点,落后于gpt-5-2025-08-07(68.9%)1.0个百分点,落后于gemini-2.5-pro(68.7%)0.8个百分点。
* 开源thinking模型领先者:在开源thinking模型中,Kimi-K2-Thinking的67.9%准确率超过了DeepSeek-V3.1-Think(67.7%)和qwen3-235b-a22b-thinking-2507(65.5%),展现了月之暗面在开源思维链技术上的竞争力。
综合定位:Kimi-K2-Thinking作为月之暗面的新一代旗舰模型,在“模型即Agent”的技术路线上迈出了重要一步,尤其在推理和工具调用能力上表现突出。但在当前竞争激烈的thinking模型市场中,其整体性能仍有提升空间,特别是在保持推理优势的同时,如何避免知识型任务的性能回退,将是后续优化的重点方向。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14628
