阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

Qwen-Plus-Think-2025-12-01版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.2%
* 平均耗时(每次调用):85s
* 平均Token(每次调用消耗的Token):3613
* 平均花费(每千次调用的人民币花费):27.1

1、新旧版本对比

首先对比上个版本(Qwen-Plus-Think-2025-07-28),数据如下:

阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M Token”

  • 整体性能出现回落:新版本准确率从67.5%下降至64.2%,降低了3.3个百分点,排名从第19位下滑至第44位,下降了25个位次,这一变化较为显著。
  • 多数领域能力有所下降:从细分领域来看,新版本在大部分领域都出现了不同程度的下降。“语言与指令遵从”能力下降最为明显,从66.7%降至54.4%,下降了12.3个百分点。“教育”领域从58.2%降至54.4%,下降3.8个百分点;“法律与行政公务”从78.7%降至75.3%,下降3.4个百分点。
  • 专业领域表现分化:“金融”领域从83.0%降至80.6%,下降2.4个百分点;“医疗与心理健康”从81.2%降至80.5%,下降0.7个百分点;“推理与数学计算”从73.1%降至72.4%,下降0.7个百分点。这些领域虽有下降,但降幅相对较小。
  • Agent能力逆势提升:值得注意的是,“Agent与工具调用”能力从52.7%提升至54.8%,增长了2.1个百分点,是唯一实现提升的能力维度,显示出阿里在工具调用方向上的持续优化。
  • 成本和效率均有上升:新版本每次调用平均消耗的Token从3466增加至3613,增幅约4.2%。每千次调用的费用从26元增加至27.1元,成本上升约4.2%。

2、对比其他新模型

在当前主流大模型竞争格局中,Qwen-Plus-Think-2025-12-01表现如何?我们从三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 同成本区间竞争激烈:在25-30元成本区间内,Qwen-Plus-Think-2025-12-01(27.1元)的定位较为尴尬。准确率64.2%明显低于成本相近的Qwen3-Max-2025-09-23(66.8%,23.4元)和Hunyuan-T1-20250711(67.3%,9.9元)。
  • 成本效率对比:相比MiniMax-M2.1(63.6%,28.1元),新版本在准确率上仅高0.6个百分点,但成本相近。而GPT-5.2-High(67.4%,94.1元)虽然成本更高,但准确率优势达3.2个百分点。
  • 同系列产品对比:阿里自家的Qwen-Flash-Think-2025-07-28(64.0%,4.6元)在准确率仅低0.2个百分点的情况下,成本仅为新版本的17%,内部产品线的定位区分度不够明显。

新旧模型对比

  • 版本迭代出现倒退:相比旧版本Qwen-Plus-Think-2025-07-28(67.5%,排名19),新版本在准确率上下降3.3个百分点,排名下滑25位,这在主流模型的版本迭代中较为罕见。
  • 成本控制未见优化:新版本的成本从26元增至27.1元,在性能下降的同时成本反而上升,未能实现性能与成本的平衡优化。
  • 响应速度:新版本85s的响应时间,在Thinking模式模型中处于中等偏快水平,快于DeepSeek-V3.2-Think(144s)和Kimi-K2-Thinking(333s),但慢于GPT-5.2-High(36s)。

开源VS闭源对比

  • 闭源模型中位置靠后:作为商用闭源模型,Qwen-Plus-Think-2025-12-01(64.2%)在闭源阵营中排名靠后,明显落后于榜首的Gemini-3-Pro-Preview(72.5%)和Hunyuan-2.0-Thinking-20251109(71.9%)。
  • 与开源模型竞争力不足:在64%准确率档位,开源模型表现出更强的成本效率比优势。DeepSeek-R1-0528(65.9%,48元)和Qwen3-235B-A22B-Thinking-2507(65.5%,61.2元)在准确率上均高于新版本。
  • 开源模型的效率优势:部分开源模型如GLM-4.6(68.1%,37.6元)和DeepSeek-V3.1-Think(67.7%,24.8元)在准确率和成本控制上均优于新版本,显示出开源阵营在Thinking模式上的竞争力。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15247

(0)
上一篇 2025年12月25日 下午12:08
下一篇 2025年12月25日 下午12:10

相关推荐

  • GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注

    OpenAI近期发布了GPT-5.1系列新版本,其中GPT-5.1-medium作为思考模式(thinking)的代表产品,在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快,在复杂任务上思考更久”,并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等…

    2025年11月21日
    8900
  • DeepEval开源方案:用LLM合成数据,90%成本锐减,评测效率飙升

    测试LLM输出效果,离不开大量数据集。从零开始准备这些数据,费时、烧钱,还特别折腾。但现在情况不一样了:以前要花几周手工打造的数千条测试用例,现在几分钟就搞定。 合成数据生成的核心思路很简单:让LLM自己造数据,省掉收集、清洗、标注这些苦力活。有了GPT-4等这样的模型,合成出来的数据集比人工标注的更全面、更多样,速度还快得多。这些数据可以用来给LLM系统做…

    2025年10月24日
    7400
  • Kimi K2 ToolCall性能大揭秘:12家服务商评测结果出炉,开源测试集助力API一致性优化

    自 Kimi K2 发布以来,Kimi开放平台收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。 用户在选择 API 服务商时,往往优先考虑延迟和成本,却可能无意中忽略了更微妙却关键的模型精度差异。 因此,Kimi开…

    2025年10月16日
    7700
  • GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

    蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架 蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。…

    2025年12月29日
    11200
  • MiniMax M2.1深度实测:全栈开发新利器,从人生K线图到iOS木鱼App的代码生成实战

    国产 AI 大模型 MiniMax M2.1 正式发布。 本次更新在 Multi-SWE(多软件工程)领域实现了显著升级。它不仅让 Web 开发、App 开发以及 Rust、Go、Java 等核心技术栈的开发体验更为流畅,其全栈能力也得到了大幅增强。 一个突出的亮点在于其能力的均衡性。 此前许多 AI 模型,包括近期备受关注的 Gemini 3 Pro,往往…

    2025年12月25日
    7700