阿里Qwen3-Max新版实测：成本骤降58%，响应提速49%，性能小幅提升0.8%

2026年1月29日下午12:04 • AI产业动态 • 阅读 1296

阿里近期发布的Qwen3-Max新版本 qwen3-max-2026-01-23，作为千问旗舰模型的非思考模式版本，相比上一版本（qwen3-max-2025-09-23）在多个维度实现了优化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

qwen3-max-2026-01-23版本表现：
* 测试题数：约1.5万
* 总分（准确率）：67.6%
* 平均耗时（每次调用）：96秒
* 平均Token（每次调用消耗）：1159
* 平均花费（每千次调用）：9.7元

1、新旧版本对比

首先对比上个版本（qwen3-max-2025-09-23），数据如下：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位：元/百万Token

整体性能小幅提升：新版本准确率从66.8%提升至67.6%，提升了0.8个百分点，排名从第32位上升至第23位。
多数领域有所改善：从细分领域来看：
“金融”从81.4%提升至83.9%（+2.5%）
“法律与行政公务”从78.0%提升至80.7%（+2.7%）
“医疗与心理健康”从80.1%提升至81.5%（+1.4%）
“语言与指令遵从”从56.7%提升至60.0%（+3.3%）
“推理与数学计算”从72.6%提升至74.6%（+2.0%）
部分领域有所回落：
“教育”从51.0%下降至50.8%（-0.2%）
“agent与工具调用”从63.7%下降至59.7%（-4.0%），后者降幅较为明显。
成本大幅下降：输出价格从24.0元/M Token下调至10.0元/M Token，降幅达58%。每千次调用的费用从23.4元降至9.7元，成本下降约59%。
响应速度显著提升：平均耗时从187秒缩短至96秒，提升了约49%，用户体验明显改善。
Token消耗基本持平：每次调用平均消耗的Token从1167略微下降至1159，变化不大。

2、对比其他模型

在当前主流大模型竞争格局中，qwen3-max-2026-01-23表现如何？我们选择了具有代表性的模型进行横向对比分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

成本档位定位：9.7元/千次的成本在当前模型中处于中低档位，与hunyuan-2.0-thinking-20251109（9.5元）、hunyuan-t1-20250711（9.9元）处于同一水平。
同档位竞争：在10元以下成本区间，hunyuan-2.0-thinking-20251109（71.9%，9.5元）准确率更高，doubao-seed-1-8-251215（71.7%，7.3元）成本效率比更优，qwen3-max-2026-01-23在该档位竞争力一般。

新旧模型对比

非思考模式定位：qwen3-max-2026-01-23作为非思考模式版本，67.6%的准确率与同厂商思考模式版本qwen3-max-think-2026-01-23（72.8%）存在5.2个百分点的差距，但成本仅为后者的22%（9.7元 vs 43.5元）。
同定位产品对比：从总分情况看，与其他非思考模式产品相比，qwen-plus-2025-07-28（67.6%，1.8元）准确率相同但成本更低，hunyuan-2.0-instruct-20251111（66.8%，1.5元）成本优势更明显。

开源VS闭源对比

开源模型表现亮眼：总分情况来看，开源模型中GLM-4.7（71.5%）、GLM-4.6（68.1%）等表现较好，均超过qwen3-max-2026-01-23的67.6%。
成本对比：qwen3-max-2026-01-23（9.7元）的成本高于多数同档位开源模型，如qwen3-235b-a22b-instruct-2507（67.2%，7.2元）准确率接近但成本更低。
速度优势：qwen3-max-2026-01-23的96秒响应时间优于部分开源模型，如GLM-4.6（59秒）更快，但LongCat-Flash-Thinking-2601（376秒）、DeepSeek-V3.2-Exp（201秒）则慢很多。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/19844

阿里Qwen3-Max新版实测：成本骤降58%，响应提速49%，性能小幅提升0.8%

1、新旧版本对比

2、对比其他模型

同成本档位对比

新旧模型对比

开源VS闭源对比

相关推荐

Agent时代计费革命：小米MiMo负责人深度解析Anthropic订阅制变革与行业未来

2025年AI大分流：100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

谷歌Veo 3.1震撼发布，全面迎战Sora 2：AI视频的“专业级”战争正式打响

中国团队首创医疗AI临床安全-有效性双轨评估标准CSEDB，MedGPT全球评测夺冠

谷歌“TorchTPU”战略：软件生态破局与AI算力格局重构