阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%

阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本,这是在Qwen3-Max-Preview基础上引入思维链(Thinking)模式的升级版本。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

Qwen3-Max-Preview-Think版本表现:
* 测试题数: 约1.5万
* 总分(准确率): 68.2%
* 平均耗时(每次调用): 182秒
* 平均Token(每次调用消耗的Token): 3811
* 平均花费(每千次调用的人民币花费): 86.8元

1、版本对比

首先对比非思考版本(Qwen3-Max-Preview),数据如下:

阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396% 阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M Token”

  • 整体性能温和提升: 新版本准确率从66.5%提升至68.2%,增长了1.7个百分点,排名从第29位上升至第16位,显示出思维链模式对整体准确率的正向作用。
  • Agent能力实现突破: 从细分领域来看,“Agent与工具调用”能力从45.8%大幅跃升至68.5%,增幅高达22.7个百分点,这是所有能力维度中最显著的提升,表明深度推理过程显著增强了复杂工具调用的决策质量。
  • 语言理解能力大幅下降: “语言与指令遵从”从71.9%降至58.1%,下降了13.8个百分点,成为最大的负面变化。这一现象可能源于思维链模式的冗长推理过程干扰了对简洁指令的直接执行。
  • 专业领域表现高度分化: “推理与数学计算”从71.0%提升至75.0%,增长4.0个百分点,验证了思维链模式在逻辑推理上的优势。然而,“教育”领域从54.2%降至46.3%,下降7.9个百分点;“金融”从85.1%降至80.4%,下降4.7个百分点;“法律与行政公务”从77.0%降至73.2%,下降3.8个百分点;“医疗与心理健康”从82.8%降至82.0%,下降0.8个百分点。这种分化表明思维链模式更适合需要深度推理的场景,而在知识密集型领域可能引入不必要的推理开销。
  • Token消耗呈爆炸式增长: 每次调用平均消耗的Token从903激增至3811,增幅达322%,这是思维链模式生成大量中间推理步骤的直接结果。
  • 调用成本急剧攀升: 每千次调用的费用从17.5元激增至86.8元,增幅高达396%,成本增长幅度远超准确率提升幅度,使得该模型在成本敏感场景中的适用性受到限制。
  • 响应时间显著延长: 新版本的平均耗时为182秒,相比非思考版本的59秒慢了约208%,这是思维链模式进行逐步推理所需的时间代价,对实时性要求高的应用构成制约。

2、对比其他模型

在当前主流大模型竞争格局中,Qwen3-Max-Preview-Think表现如何?我们从三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 成本处于较高水平: 86.8元/千次的成本在对比模型中位于高位区间,仅低于Kimi-K2-Thinking(89.2元)、GPT-5.1-medium(87.9元)和GPT-5.2-high(94.1元)等。
* 同成本区间表现平平: 在80-90元成本档位中,准确率68.2%与Kimi-K2-Thinking(68.3%)基本持平,但略低于GPT-5.1-medium(69.3%),在该价位段并未展现明显优势。
* 成本效率存在差距: 对比成本更低的思维链模型,ERNIE-5.0-Thinking-Preview(67.5%,72.5元)准确率仅低0.7个百分点,成本却低16.5%;Hunyuan-2.0-Thinking-20251109(71.9%,9.5元)准确率反而高3.7个百分点,成本却仅为新版本的11%,凸显出成本控制上的明显劣势。

新旧模型对比:
* 思维链模式的权衡本质: 相比非思考版本Qwen3-Max-Preview(66.5%,排名29),思维链版本以准确率提升1.7个百分点为代价,换取了成本增加396%和响应时间延长208%的结果,这一权衡是否值得高度依赖具体应用场景需求。
* 能力分化的启示: Agent能力的飞跃(+22.7个百分点)与语言理解的滑坡(-13.8个百分点)形成鲜明对比,揭示了思维链模式并非万能方案,而是在特定能力维度上做出了明确取舍。
* 产品定位清晰化: 两个版本在性能特征上的巨大差异为不同应用场景提供了明确选择:需要复杂推理和工具调用的场景选思维链版本,追求效率和简洁响应的场景选非思考版本。

开源VS闭源对比:
* 闭源阵营中游表现: 作为商用闭源模型,Qwen3-Max-Preview-Think(68.2%)在闭源阵营中处于中等位置,明显落后于榜首的Gemini-3-Pro-Preview(72.5%)和Hunyuan-2.0-Thinking-20251109(71.9%)。
* 开源思维链模型竞争力强劲: 开源阵营在思维链模式上展现出色表现。DeepSeek-V3.2-Think(70.9%,7.5元)准确率高2.7个百分点,成本却仅为9%;GLM-4.6(68.1%,37.6元)准确率接近,成本仅为43%;DeepSeek-V3.1-Think(67.7%,24.8元)和Qwen3-235B-A22B-Thinking-2507(65.5%,61.2元)等模型在准确率相近时成本优势明显。
* 开源模型的迭代速度优势: 开源思维链模型的快速优化表明,仅依靠思维链模式提升准确率已不足以建立持久竞争优势,闭源商用模型需要在响应速度、成本控制和特定场景能力上寻找突破点。
* 差异化能力的重要性: 在开源模型全面崛起的背景下,新版本在Agent能力上的显著提升(68.5%)提供了一个可能的差异化方向,但需要进一步降低成本才能形成真正的竞争力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16409

(2)
上一篇 2025年12月30日 上午11:49
下一篇 2025年12月30日 下午2:50

相关推荐

  • 大模型评测的演进之路:从静态指标到动态验证(2025)【Benchmarks解读】

    在人工智能快速迭代的今天,大型语言模型(LLM)的能力边界不断拓展。从最初的文本生成,到如今的复杂推理、多模态理解、智能体协作,模型能力的跃升令人瞩目。然而,一个更为关键的问题浮出水面:我们真的知道如何准确衡量这些模型的能力吗? 评测基准的发展轨迹,恰恰映射着整个行业对“智能”理解的演进。本文将系统梳理当前大模型评测的全景图谱,分享在实践中的洞察,并探讨未来…

    2025年11月11日
    8000
  • 百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

    百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界 AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。 百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭…

    2026年1月23日
    2800
  • 美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为一款基于MoE架构的5600亿参数大型推理模型,官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测,测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现:* 测试题数: 约1.5万* 总分(准确…

    2026年1月23日
    3200
  • Kimi-K2-Thinking实测:新一代Thinking Agent如何实现推理能力突破性增强?

    月之暗面近期发布了Kimi-K2-Thinking模型,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力。作为一款MoE架构模型(每次激活32B参数),我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…

    2025年11月18日
    11400
  • 实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏

    谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…

    2025年11月21日
    6500