阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%

阿里近期发布的Qwen3-Max新版本 qwen3-max-2026-01-23,作为千问旗舰模型的非思考模式版本,相比上一版本(qwen3-max-2025-09-23)在多个维度实现了优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

qwen3-max-2026-01-23版本表现:
* 测试题数:约1.5万
* 总分(准确率):67.6%
* 平均耗时(每次调用):96秒
* 平均Token(每次调用消耗):1159
* 平均花费(每千次调用):9.7元

1、新旧版本对比

首先对比上个版本(qwen3-max-2025-09-23),数据如下:

阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8% 阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位:元/百万Token

  • 整体性能小幅提升:新版本准确率从66.8%提升至67.6%,提升了0.8个百分点,排名从第32位上升至第23位。
  • 多数领域有所改善:从细分领域来看:
  • “金融”从81.4%提升至83.9%(+2.5%)
  • “法律与行政公务”从78.0%提升至80.7%(+2.7%)
  • “医疗与心理健康”从80.1%提升至81.5%(+1.4%)
  • “语言与指令遵从”从56.7%提升至60.0%(+3.3%)
  • “推理与数学计算”从72.6%提升至74.6%(+2.0%)
  • 部分领域有所回落
  • “教育”从51.0%下降至50.8%(-0.2%)
  • “agent与工具调用”从63.7%下降至59.7%(-4.0%),后者降幅较为明显。
  • 成本大幅下降:输出价格从24.0元/M Token下调至10.0元/M Token,降幅达58%。每千次调用的费用从23.4元降至9.7元,成本下降约59%。
  • 响应速度显著提升:平均耗时从187秒缩短至96秒,提升了约49%,用户体验明显改善。
  • Token消耗基本持平:每次调用平均消耗的Token从1167略微下降至1159,变化不大。

2、对比其他模型

在当前主流大模型竞争格局中,qwen3-max-2026-01-23表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 成本档位定位:9.7元/千次的成本在当前模型中处于中低档位,与hunyuan-2.0-thinking-20251109(9.5元)、hunyuan-t1-20250711(9.9元)处于同一水平。
  • 同档位竞争:在10元以下成本区间,hunyuan-2.0-thinking-20251109(71.9%,9.5元)准确率更高,doubao-seed-1-8-251215(71.7%,7.3元)成本效率比更优,qwen3-max-2026-01-23在该档位竞争力一般。

新旧模型对比

  • 非思考模式定位qwen3-max-2026-01-23作为非思考模式版本,67.6%的准确率与同厂商思考模式版本qwen3-max-think-2026-01-23(72.8%)存在5.2个百分点的差距,但成本仅为后者的22%(9.7元 vs 43.5元)。
  • 同定位产品对比:从总分情况看,与其他非思考模式产品相比,qwen-plus-2025-07-28(67.6%,1.8元)准确率相同但成本更低,hunyuan-2.0-instruct-20251111(66.8%,1.5元)成本优势更明显。

开源VS闭源对比

  • 开源模型表现亮眼:总分情况来看,开源模型中GLM-4.7(71.5%)、GLM-4.6(68.1%)等表现较好,均超过qwen3-max-2026-01-23的67.6%。
  • 成本对比qwen3-max-2026-01-23(9.7元)的成本高于多数同档位开源模型,如qwen3-235b-a22b-instruct-2507(67.2%,7.2元)准确率接近但成本更低。
  • 速度优势qwen3-max-2026-01-23的96秒响应时间优于部分开源模型,如GLM-4.6(59秒)更快,但LongCat-Flash-Thinking-2601(376秒)、DeepSeek-V3.2-Exp(201秒)则慢很多。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19844

(0)
上一篇 3天前
下一篇 3天前

相关推荐

  • 超越能跑就行:Agent评测的三层四维框架与实战指南

    传统 Agent 评测的三大盲区 当前主流的 Agent 评测方式,主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区: 盲区一:只评结果,不评过程Agent 完成了任务,但中间调用了多次不必要的工具、走了弯路,这种「低效完成」和「高效完成」在传统评测中得分相同。 盲区二:只评能力,不评工程化Agent 在实验环境表现优秀,但无法部署到生产环境、无…

    14小时前
    900
  • 无需微调,Poetiq元系统让GPT-5.2推理准确率飙升至75%,创ARC-AGI-2新纪录

    什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。 在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI 的智力表现原地暴涨一截。在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后,有人得出了这样的结论。 近日,Poetiq 表示其使用 ARC-AGI-2 测试…

    2025年12月25日
    9000
  • 揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?

    当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…

    2025年11月12日
    9400
  • GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力

    OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…

    2025年12月14日
    8000
  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    7800