阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点
阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。
Qwen-Plus-Think-2025-12-01版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.2%
* 平均耗时(每次调用):85s
* 平均Token(每次调用消耗的Token):3613
* 平均花费(每千次调用的人民币花费):27.1
1、新旧版本对比
首先对比上个版本(Qwen-Plus-Think-2025-07-28),数据如下:

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M Token”
- 整体性能出现回落:新版本准确率从67.5%下降至64.2%,降低了3.3个百分点,排名从第19位下滑至第44位,下降了25个位次,这一变化较为显著。
- 多数领域能力有所下降:从细分领域来看,新版本在大部分领域都出现了不同程度的下降。“语言与指令遵从”能力下降最为明显,从66.7%降至54.4%,下降了12.3个百分点。“教育”领域从58.2%降至54.4%,下降3.8个百分点;“法律与行政公务”从78.7%降至75.3%,下降3.4个百分点。
- 专业领域表现分化:“金融”领域从83.0%降至80.6%,下降2.4个百分点;“医疗与心理健康”从81.2%降至80.5%,下降0.7个百分点;“推理与数学计算”从73.1%降至72.4%,下降0.7个百分点。这些领域虽有下降,但降幅相对较小。
- Agent能力逆势提升:值得注意的是,“Agent与工具调用”能力从52.7%提升至54.8%,增长了2.1个百分点,是唯一实现提升的能力维度,显示出阿里在工具调用方向上的持续优化。
- 成本和效率均有上升:新版本每次调用平均消耗的Token从3466增加至3613,增幅约4.2%。每千次调用的费用从26元增加至27.1元,成本上升约4.2%。
2、对比其他新模型
在当前主流大模型竞争格局中,Qwen-Plus-Think-2025-12-01表现如何?我们从三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
- 同成本区间竞争激烈:在25-30元成本区间内,Qwen-Plus-Think-2025-12-01(27.1元)的定位较为尴尬。准确率64.2%明显低于成本相近的Qwen3-Max-2025-09-23(66.8%,23.4元)和Hunyuan-T1-20250711(67.3%,9.9元)。
- 成本效率对比:相比MiniMax-M2.1(63.6%,28.1元),新版本在准确率上仅高0.6个百分点,但成本相近。而GPT-5.2-High(67.4%,94.1元)虽然成本更高,但准确率优势达3.2个百分点。
- 同系列产品对比:阿里自家的Qwen-Flash-Think-2025-07-28(64.0%,4.6元)在准确率仅低0.2个百分点的情况下,成本仅为新版本的17%,内部产品线的定位区分度不够明显。
新旧模型对比
- 版本迭代出现倒退:相比旧版本Qwen-Plus-Think-2025-07-28(67.5%,排名19),新版本在准确率上下降3.3个百分点,排名下滑25位,这在主流模型的版本迭代中较为罕见。
- 成本控制未见优化:新版本的成本从26元增至27.1元,在性能下降的同时成本反而上升,未能实现性能与成本的平衡优化。
- 响应速度:新版本85s的响应时间,在Thinking模式模型中处于中等偏快水平,快于DeepSeek-V3.2-Think(144s)和Kimi-K2-Thinking(333s),但慢于GPT-5.2-High(36s)。
开源VS闭源对比
- 闭源模型中位置靠后:作为商用闭源模型,Qwen-Plus-Think-2025-12-01(64.2%)在闭源阵营中排名靠后,明显落后于榜首的Gemini-3-Pro-Preview(72.5%)和Hunyuan-2.0-Thinking-20251109(71.9%)。
- 与开源模型竞争力不足:在64%准确率档位,开源模型表现出更强的成本效率比优势。DeepSeek-R1-0528(65.9%,48元)和Qwen3-235B-A22B-Thinking-2507(65.5%,61.2元)在准确率上均高于新版本。
- 开源模型的效率优势:部分开源模型如GLM-4.6(68.1%,37.6元)和DeepSeek-V3.1-Think(67.7%,24.8元)在准确率和成本控制上均优于新版本,显示出开源阵营在Thinking模式上的竞争力。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15247
