阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

Qwen-Plus-Think-2025-12-01版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.2%
* 平均耗时(每次调用):85s
* 平均Token(每次调用消耗的Token):3613
* 平均花费(每千次调用的人民币花费):27.1

1、新旧版本对比

首先对比上个版本(Qwen-Plus-Think-2025-07-28),数据如下:

阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M Token”

  • 整体性能出现回落:新版本准确率从67.5%下降至64.2%,降低了3.3个百分点,排名从第19位下滑至第44位,下降了25个位次,这一变化较为显著。
  • 多数领域能力有所下降:从细分领域来看,新版本在大部分领域都出现了不同程度的下降。“语言与指令遵从”能力下降最为明显,从66.7%降至54.4%,下降了12.3个百分点。“教育”领域从58.2%降至54.4%,下降3.8个百分点;“法律与行政公务”从78.7%降至75.3%,下降3.4个百分点。
  • 专业领域表现分化:“金融”领域从83.0%降至80.6%,下降2.4个百分点;“医疗与心理健康”从81.2%降至80.5%,下降0.7个百分点;“推理与数学计算”从73.1%降至72.4%,下降0.7个百分点。这些领域虽有下降,但降幅相对较小。
  • Agent能力逆势提升:值得注意的是,“Agent与工具调用”能力从52.7%提升至54.8%,增长了2.1个百分点,是唯一实现提升的能力维度,显示出阿里在工具调用方向上的持续优化。
  • 成本和效率均有上升:新版本每次调用平均消耗的Token从3466增加至3613,增幅约4.2%。每千次调用的费用从26元增加至27.1元,成本上升约4.2%。

2、对比其他新模型

在当前主流大模型竞争格局中,Qwen-Plus-Think-2025-12-01表现如何?我们从三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 同成本区间竞争激烈:在25-30元成本区间内,Qwen-Plus-Think-2025-12-01(27.1元)的定位较为尴尬。准确率64.2%明显低于成本相近的Qwen3-Max-2025-09-23(66.8%,23.4元)和Hunyuan-T1-20250711(67.3%,9.9元)。
  • 成本效率对比:相比MiniMax-M2.1(63.6%,28.1元),新版本在准确率上仅高0.6个百分点,但成本相近。而GPT-5.2-High(67.4%,94.1元)虽然成本更高,但准确率优势达3.2个百分点。
  • 同系列产品对比:阿里自家的Qwen-Flash-Think-2025-07-28(64.0%,4.6元)在准确率仅低0.2个百分点的情况下,成本仅为新版本的17%,内部产品线的定位区分度不够明显。

新旧模型对比

  • 版本迭代出现倒退:相比旧版本Qwen-Plus-Think-2025-07-28(67.5%,排名19),新版本在准确率上下降3.3个百分点,排名下滑25位,这在主流模型的版本迭代中较为罕见。
  • 成本控制未见优化:新版本的成本从26元增至27.1元,在性能下降的同时成本反而上升,未能实现性能与成本的平衡优化。
  • 响应速度:新版本85s的响应时间,在Thinking模式模型中处于中等偏快水平,快于DeepSeek-V3.2-Think(144s)和Kimi-K2-Thinking(333s),但慢于GPT-5.2-High(36s)。

开源VS闭源对比

  • 闭源模型中位置靠后:作为商用闭源模型,Qwen-Plus-Think-2025-12-01(64.2%)在闭源阵营中排名靠后,明显落后于榜首的Gemini-3-Pro-Preview(72.5%)和Hunyuan-2.0-Thinking-20251109(71.9%)。
  • 与开源模型竞争力不足:在64%准确率档位,开源模型表现出更强的成本效率比优势。DeepSeek-R1-0528(65.9%,48元)和Qwen3-235B-A22B-Thinking-2507(65.5%,61.2元)在准确率上均高于新版本。
  • 开源模型的效率优势:部分开源模型如GLM-4.6(68.1%,37.6元)和DeepSeek-V3.1-Think(67.7%,24.8元)在准确率和成本控制上均优于新版本,显示出开源阵营在Thinking模式上的竞争力。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15247

(0)
上一篇 2025年12月25日 下午12:08
下一篇 2025年12月25日 下午12:10

相关推荐

  • 揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?

    当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…

    2025年11月12日
    35200
  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    50000
  • Claude Code更新“废了”?思考深度骤降67%,模型行为全面走样引热议

    在官方仓库中,一则热议的Issue直指核心问题:Claude Code的更新可能已经“废了”。 某次更新导致其思考深度骤降67%,当前版本被认为已无法胜任复杂的工程任务。 “无视用户指令”、“执行与用户要求完全相反的操作”、“假装任务已完成”……模型行为出现全面走样。 其思维链长度从约2200字符被削减至不足700字符,工作模式从“先研究再修改代码”的严谨流…

    2026年4月7日
    92900
  • PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

    一个评估大模型在“养虾”(OpenClaw)任务中表现的基准——PinchBench,现已正式发布。 该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度,综合评估各大模型在OpenClaw实际业务场景中的表现。 需要指出的是,本次评测尚未包含近期发布的新模型,例如谷歌主打性价比…

    2026年3月9日
    1.1K00
  • 3B小模型逆袭万亿巨头:Nanbeige4.1-3B如何以“小而全”颠覆大模型军备竞赛?

    近年来,大模型领域的竞争日趋白热化,无论是开源还是闭源阵营,都陷入了对 Scaling Law、算力与参数量的极致追求,其规模膨胀的速度已近乎“军备竞赛”。 过去,拥有约15亿参数的GPT-2在如今看来已属“小模型”。而GPT-4的参数规模据业内估计已达万亿级别,GPT-5等后续模型的体量更是难以估量。开源模型同样在向超大参数迈进,超过6000亿参数的模型已…

    2026年3月9日
    79500