阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

2025年12月25日下午12:10 • 大模型评测 • 阅读 193

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

阿里近期发布了Qwen-Plus-Think-2025-12-01新版本，相比此前的Qwen-Plus-Think-2025-07-28版本，在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

Qwen-Plus-Think-2025-12-01版本表现：
* 测试题数：约1.5万
* 总分（准确率）：64.2%
* 平均耗时（每次调用）：85s
* 平均Token（每次调用消耗的Token）：3613
* 平均花费（每千次调用的人民币花费）：27.1

1、新旧版本对比

首先对比上个版本（Qwen-Plus-Think-2025-07-28），数据如下：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M Token”

整体性能出现回落：新版本准确率从67.5%下降至64.2%，降低了3.3个百分点，排名从第19位下滑至第44位，下降了25个位次，这一变化较为显著。
多数领域能力有所下降：从细分领域来看，新版本在大部分领域都出现了不同程度的下降。“语言与指令遵从”能力下降最为明显，从66.7%降至54.4%，下降了12.3个百分点。“教育”领域从58.2%降至54.4%，下降3.8个百分点；“法律与行政公务”从78.7%降至75.3%，下降3.4个百分点。
专业领域表现分化：“金融”领域从83.0%降至80.6%，下降2.4个百分点；“医疗与心理健康”从81.2%降至80.5%，下降0.7个百分点；“推理与数学计算”从73.1%降至72.4%，下降0.7个百分点。这些领域虽有下降，但降幅相对较小。
Agent能力逆势提升：值得注意的是，“Agent与工具调用”能力从52.7%提升至54.8%，增长了2.1个百分点，是唯一实现提升的能力维度，显示出阿里在工具调用方向上的持续优化。
成本和效率均有上升：新版本每次调用平均消耗的Token从3466增加至3613，增幅约4.2%。每千次调用的费用从26元增加至27.1元，成本上升约4.2%。

2、对比其他新模型

在当前主流大模型竞争格局中，Qwen-Plus-Think-2025-12-01表现如何？我们从三个维度进行横向对比分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

同成本区间竞争激烈：在25-30元成本区间内，Qwen-Plus-Think-2025-12-01（27.1元）的定位较为尴尬。准确率64.2%明显低于成本相近的Qwen3-Max-2025-09-23（66.8%，23.4元）和Hunyuan-T1-20250711（67.3%，9.9元）。
成本效率对比：相比MiniMax-M2.1（63.6%，28.1元），新版本在准确率上仅高0.6个百分点，但成本相近。而GPT-5.2-High（67.4%，94.1元）虽然成本更高，但准确率优势达3.2个百分点。
同系列产品对比：阿里自家的Qwen-Flash-Think-2025-07-28（64.0%，4.6元）在准确率仅低0.2个百分点的情况下，成本仅为新版本的17%，内部产品线的定位区分度不够明显。

新旧模型对比

版本迭代出现倒退：相比旧版本Qwen-Plus-Think-2025-07-28（67.5%，排名19），新版本在准确率上下降3.3个百分点，排名下滑25位，这在主流模型的版本迭代中较为罕见。
成本控制未见优化：新版本的成本从26元增至27.1元，在性能下降的同时成本反而上升，未能实现性能与成本的平衡优化。
响应速度：新版本85s的响应时间，在Thinking模式模型中处于中等偏快水平，快于DeepSeek-V3.2-Think（144s）和Kimi-K2-Thinking（333s），但慢于GPT-5.2-High（36s）。

开源VS闭源对比

闭源模型中位置靠后：作为商用闭源模型，Qwen-Plus-Think-2025-12-01（64.2%）在闭源阵营中排名靠后，明显落后于榜首的Gemini-3-Pro-Preview（72.5%）和Hunyuan-2.0-Thinking-20251109（71.9%）。
与开源模型竞争力不足：在64%准确率档位，开源模型表现出更强的成本效率比优势。DeepSeek-R1-0528（65.9%，48元）和Qwen3-235B-A22B-Thinking-2507（65.5%，61.2元）在准确率上均高于新版本。
开源模型的效率优势：部分开源模型如GLM-4.6（68.1%，37.6元）和DeepSeek-V3.1-Think（67.7%，24.8元）在准确率和成本控制上均优于新版本，显示出开源阵营在Thinking模式上的竞争力。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15247

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

1、新旧版本对比

2、对比其他新模型

同成本档位对比

新旧模型对比

开源VS闭源对比

相关推荐

国产具身智能新突破：千寻Spirit v1.5开源即登顶全球真机评测榜首

VitaBench评测揭示AI智能体真实应用瓶颈：跨场景成功率仅30%，三大维度量化任务复杂性

GPT-5.1性能评测：准确率骤降11.3%，OpenAI的“情绪价值”战略代价几何？

智谱GLM-4.7深度评测：Agentic Coding新标杆还是仍有短板？

谷歌Gemini-3-Flash-Preview实测：成本仅为Pro版1/4，性能超越上代Pro，中文评测排名跃升至第5