月之暗面发布了 Kimi-K2.5-Thinking 新版本,官方称其为“Kimi迄今最智能的模型”,在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
Kimi-K2.5-Thinking版本表现:
* 测试题数:约1.5万
* 总分(准确率):71.3%
* 平均耗时(每次调用):338s
* 平均token(每次调用消耗的token):3842
* 平均花费(每千次调用的人民币花费):77.1
1、新旧版本对比
首先对比上个版本(Kimi-K2-Thinking),数据如下:

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”
- 整体性能稳步提升:新版本准确率从68.3%提升至71.3%,增长了3.0个百分点,排名从第18位升至第8位。
- 深度推理能力增强:K2-Thinking已经在复杂推理能力上取得了长足进展,而K2.5则更进一步,“推理与数学计算能力”从75.3%提升至78.0%(+2.7%),且多次测试结果更加稳定一致。K2.5在更多问题上展现出较强的泛化能力,原先K2-Thinking靠暴力搜索、消耗大量Token才勉强解决的问题,K2.5消耗都大幅降低。
- 指令遵循能力完善:K2-Thinking的指令遵循有Kimi自己的想法,当时的表现不算好。K2.5则完善了这方面能力,“语言与指令遵从”从63.4%提升至72.1%(+8.7%),直接指令能够稳定执行,需要轻度推理的指令也没有问题。
- 专业领域全面提升:从细分领域来看,新版本在大多数领域都实现了显著提升。“教育”领域从45.6%大幅提升至58.3%(+12.7%),“医疗与心理健康”从77.7%提升至87.7%(+10.0%),“金融”从71.9%提升至87.6%(+15.7%),“法律与行政公务”从72.3%提升至80.3%(+8.0%)。
- Agent能力大幅滑坡:令人意外的是,官方主打的Agent能力在我们的测试中却出现了明显下降。“Agent与工具调用”从68.0%下滑至54.6%,降幅达13.4个百分点,与官方宣传形成鲜明对比。这一结果值得关注,可能与测试场景差异或模型调优方向有关。
- Token消耗下降:每次调用平均消耗的token从5732降至3842,降幅约33%,体现了推理效率的提升。每千次调用的测试成本从89.2元降至77.1元,下降约13.6%。
- 响应时间基本持平:新版本的平均耗时为338s,比旧版本的333s略有增加,整体差异不大。
2、对比其他新模型
在当前主流大模型竞争格局中,Kimi-K2.5-Thinking表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
- 同档位表现中等:77.1元/千次的成本在thinking模型中处于中等水平。对比成本相近的ERNIE-5.0(89.2元,70.9%),Kimi-K2.5-Thinking准确率略高0.4个百分点;与gpt-5.1-medium(87.9元,69.3%)相比,准确率优势更为明显(+2.0%)。
- 与低成本高性能模型差距明显:hunyuan-2.0-thinking-20251109以9.5元的测试成本达到71.9%的准确率,比Kimi-K2.5-Thinking准确率还高0.6个百分点,测试成本却只有其1/8,效率差距显著。
新旧模型对比
- 开源thinking模型中位居前列:从总分情况看,在开源thinking模型阵营中,Kimi-K2.5-Thinking排名第8位,超越了DeepSeek-V3.2-Think(70.9%,第10位)、qwen3-235b-a22b-thinking-2507(65.5%,第39位)等同类产品。
- 与榜首模型仍有差距:对比排名第1的qwen3-max-think-2026-01-23(72.8%),差距1.5个百分点;与doubao-seed-1-8-251215(71.7%)相比也有0.4个百分点的差距。
开源VS闭源对比
- 开源阵营表现优异:作为开源模型,Kimi-K2.5-Thinking的71.3%准确率在开源阵营中位居前列,与GLM-4.7(71.5%,智谱AI开源)基本持平,超越了DeepSeek-V3.2-Think(70.9%)等主要竞品。
- 与闭源旗舰差距缩小:与闭源模型gemini-3-pro-preview(72.5%)、qwen3-max-think-2026-01-23(72.8%)相比,仍有1-1.5个百分点的差距,但开源与闭源的差距正在缩小。
- 响应速度偏慢:338s的响应时间在thinking模型中偏长,明显慢于DeepSeek-V3.2-Think(144s)、hunyuan-2.0-thinking-20251109(28s)等竞品,用户体验有待优化。
3、官方评测
根据官方博客(https://www.kimi.com/blog/kimi-k2-5.html)披露的信息:
编程能力评测

官方宣称K2.5的前端代码能力得到跨越式提升,可以从简单的自然语言对话生成完整的前端界面,支持交互式布局和滚动触发等动态效果。在内部Kimi Code Bench测试中,覆盖从构建到调试、重构、测试、脚本编写等端到端任务,跨多种编程语言,K2.5在各类任务上相比K2都有持续且显著的提升。
K2.5还支持视觉编程(coding with vision),通过对图像和视频进行推理,改进了图像/视频到代码的生成和视觉调试能力。
Agent Swarm评测

这是K2.5的重磅功能。采用并行Agent强化学习(PARL)训练,模型可以自主调度最多100个子Agent,执行最多1500次工具调用的并行工作流,无需预定义子Agent或手工设计工作流。

官方评测显示,相比单Agent设置,Agent Swarm可减少最多80%的端到端运行时间,在宽搜索场景下达到目标性能所需的最小关键步骤减少3×-4.5×,通过并行化实现最多4.5×的实际时间缩减。
办公生产力评测

官方设计了两个内部专家生产力基准:AI Office Benchmark评估端到端Office输出质量,General Agent Benchmark衡量多步骤生产级工作流与人类专家表现的对比。
评测结果显示,K2.5相比K2 Thinking在AI Office基准上提升了59.3%,在通用Agent基准上提升了24.3%。支持Word批注、Excel数据透视表、PDF中的LaTeX公式等高级功能,可扩展到万字论文或百页文档的长篇输出。
主要基准测试成绩

官方公布的数据显示,Kimi K2.5在多个基准测试中表现亮眼,在Agent、图像、视频三大维度均展现出较强的竞争力。

性能实测:推理效率与Agent能力的“跷跷板”
在性能实测环节,Kimi-K2.5-Thinking 展现出了显著的效率提升,但其 Agent 能力的表现却引发了新的讨论。
推理效率:显著提升的“硬实力”
根据官方数据及社区测试,Kimi-K2.5-Thinking 在多项标准推理基准测试中,平均推理速度较前代模型提升了约 33%。这一提升主要得益于其优化的模型架构和推理算法,在处理复杂逻辑链条和数学问题时,响应时间明显缩短,用户体验更为流畅。对于需要高频调用模型进行思考或计算的场景,这一效率优势将转化为显著的生产力增益。
Agent 能力:意料之外的“滑坡”
与推理效率的亮眼表现形成对比的是,在部分动态、多步骤的 Agent 任务测试中,Kimi-K2.5-Thinking 的表现出现了波动甚至下滑。测试显示,在面对需要自主规划、工具调用与环境交互的复杂任务时,新版模型有时会出现步骤遗漏、逻辑跳跃或对指令理解偏差的情况,其任务完成率和鲁棒性未达到部分开发者的预期。
这种“跷跷板”现象——即推理效率提升伴随部分场景 Agent 能力回调——在模型迭代中并非孤例。它可能源于优化重点的暂时性转移,例如在提升核心推理速度的过程中,对涉及长期规划、上下文依赖的复杂行为链的泛化能力训练有所取舍。
总结:开源模型的新标杆与待解之谜
综合来看,Kimi-K2.5-Thinking 无疑在推理效率上树立了新的开源标杆,其 33% 的提升对于推动大模型应用落地具有实质性价值。它再次证明了开源模型在核心能力上快速逼近甚至超越闭源模型的潜力。
然而,其在复杂 Agent 任务中表现出的不稳定性,也为社区提出了新的课题:如何在提升模型基础推理效率的同时,保持并增强其作为智能体所需的规划、决策与稳健执行能力?这或许是 Kimi 模型乃至整个开源大模型领域下一步需要重点攻克的方向。
Kimi-K2.5-Thinking 的发布,不仅是一个更强、更快的模型,更是一份引发深入技术讨论的“实测报告”。它标志着开源竞争进入了更精细、更关注实际应用表现的新阶段。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19254
