阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%

阿里近期发布的Qwen3-Max新版本 qwen3-max-2026-01-23,作为千问旗舰模型的非思考模式版本,相比上一版本(qwen3-max-2025-09-23)在多个维度实现了优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

qwen3-max-2026-01-23版本表现:
* 测试题数:约1.5万
* 总分(准确率):67.6%
* 平均耗时(每次调用):96秒
* 平均Token(每次调用消耗):1159
* 平均花费(每千次调用):9.7元

1、新旧版本对比

首先对比上个版本(qwen3-max-2025-09-23),数据如下:

阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8% 阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位:元/百万Token

  • 整体性能小幅提升:新版本准确率从66.8%提升至67.6%,提升了0.8个百分点,排名从第32位上升至第23位。
  • 多数领域有所改善:从细分领域来看:
  • “金融”从81.4%提升至83.9%(+2.5%)
  • “法律与行政公务”从78.0%提升至80.7%(+2.7%)
  • “医疗与心理健康”从80.1%提升至81.5%(+1.4%)
  • “语言与指令遵从”从56.7%提升至60.0%(+3.3%)
  • “推理与数学计算”从72.6%提升至74.6%(+2.0%)
  • 部分领域有所回落
  • “教育”从51.0%下降至50.8%(-0.2%)
  • “agent与工具调用”从63.7%下降至59.7%(-4.0%),后者降幅较为明显。
  • 成本大幅下降:输出价格从24.0元/M Token下调至10.0元/M Token,降幅达58%。每千次调用的费用从23.4元降至9.7元,成本下降约59%。
  • 响应速度显著提升:平均耗时从187秒缩短至96秒,提升了约49%,用户体验明显改善。
  • Token消耗基本持平:每次调用平均消耗的Token从1167略微下降至1159,变化不大。

2、对比其他模型

在当前主流大模型竞争格局中,qwen3-max-2026-01-23表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 成本档位定位:9.7元/千次的成本在当前模型中处于中低档位,与hunyuan-2.0-thinking-20251109(9.5元)、hunyuan-t1-20250711(9.9元)处于同一水平。
  • 同档位竞争:在10元以下成本区间,hunyuan-2.0-thinking-20251109(71.9%,9.5元)准确率更高,doubao-seed-1-8-251215(71.7%,7.3元)成本效率比更优,qwen3-max-2026-01-23在该档位竞争力一般。

新旧模型对比

  • 非思考模式定位qwen3-max-2026-01-23作为非思考模式版本,67.6%的准确率与同厂商思考模式版本qwen3-max-think-2026-01-23(72.8%)存在5.2个百分点的差距,但成本仅为后者的22%(9.7元 vs 43.5元)。
  • 同定位产品对比:从总分情况看,与其他非思考模式产品相比,qwen-plus-2025-07-28(67.6%,1.8元)准确率相同但成本更低,hunyuan-2.0-instruct-20251111(66.8%,1.5元)成本优势更明显。

开源VS闭源对比

  • 开源模型表现亮眼:总分情况来看,开源模型中GLM-4.7(71.5%)、GLM-4.6(68.1%)等表现较好,均超过qwen3-max-2026-01-23的67.6%。
  • 成本对比qwen3-max-2026-01-23(9.7元)的成本高于多数同档位开源模型,如qwen3-235b-a22b-instruct-2507(67.2%,7.2元)准确率接近但成本更低。
  • 速度优势qwen3-max-2026-01-23的96秒响应时间优于部分开源模型,如GLM-4.6(59秒)更快,但LongCat-Flash-Thinking-2601(376秒)、DeepSeek-V3.2-Exp(201秒)则慢很多。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19844

(0)
上一篇 2026年1月29日 上午9:11
下一篇 2026年1月29日 下午2:50

相关推荐

  • 2026年1月AI大模型前沿速览:通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

    1月5日 【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:方言类(龙嘉怡、龙老铁)、出海营销类、诗词朗诵类(龙飞)、语音助手类(龙小淳、龙小夏、YUMI)、社交陪伴类(龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩)、有声书类(龙三叔、龙媛、龙悦、龙修、龙楠…

    AI产业动态 2026年2月2日
    20300
  • 口袋里的AI超算革命:无影云电脑如何让个人开发者拥有随叫随到的云端算力

    桌面感体验,超算级算力。 很多开发者都有过类似的时刻:模型规模越来越大,本地设备开始力不从心。程序刚跑起来,风扇声就呼啸而起,显存占用迅速拉满,进度条却仿佛被按下了暂停键。问题不在模型,而在于本地电脑已触及能力边界。 对个人开发者乃至中小企业而言,这几乎是绕不开的现实。本地设备性能有限,尝试稍大一些的模型便会捉襟见肘。高性能工作站固然存在,但其价格与维护成本…

    2026年1月10日
    16500
  • OpenAI发布Prism:GPT-5.2驱动的免费科研写作平台,开启Vibe Coding式论文创作新时代

    OpenAI发布Prism:GPT-5.2驱动的免费科研写作平台,开启Vibe Coding式论文创作新时代 就在今天,OpenAI为科研工作者带来了一份重磅礼物——免费的科研写作平台Prism。该平台将GPT-5.2模型深度集成于在线LaTeX编辑器中,能够直接理解论文的完整结构、公式推导与参考文献,标志着论文创作进入了“Vibe Coding”式的新时代…

    2026年1月28日
    16600
  • 解码AI时代红利:从技术突破到产业协同的多元路径分析

    在人工智能技术快速演进的当下,科技创新红利已成为驱动经济增长和社会变革的核心动力。近期一场汇聚学界与产业界精英的高端对话,从多维视角深入剖析了AI时代红利的释放机制与实现路径。本文将从技术基础、产业转化、协同创新及全球化布局四个维度,系统解析科技创新红利的深层逻辑与实践策略。 技术突破是红利释放的原始驱动力。当前,以大模型为代表的AI技术正掀起新一轮科技革命…

    2025年11月11日
    14500
  • ICLR 2026评审危机:投稿量激增与质量滑坡背后的学术生态反思

    国际表征学习大会(ICLR)2026年的评审结果近日公布,数据显示投稿量从2025年的11672篇暴增至19631篇,创下历史新高。然而,与数量增长形成鲜明对比的是论文质量的显著下滑:平均分从5.12跌至4.20,最高分也从10分降至8.5分。这一现象引发了学术界对当前AI研究生态的广泛关注与深刻反思。 从统计层面看,ICLR 2026的评分分布呈现出明显的…

    2025年11月13日
    15500