阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型,总参数量为1220亿,采用256个专家的稀疏混合专家(MoE)架构,每次前向传播仅激活约100亿参数。该模型基于Gated Delta Networks与稀疏MoE的混合架构,支持文本、图像和视频输入。官方宣称其在纯文本任务上的性能可媲美前代旗舰模型Qwen3-Max,同时成本更低;其多模态能力相比Qwen3-VL系列也有显著提升。

我们对Qwen3.5-122B-A10B进行了全面评测,重点考察其在中文场景下的准确率、响应时间、Token消耗及成本等关键指标。需要说明的是,本次评测以文本能力为主,模型原生支持的多模态理解、视觉Agent操作(GUI自动化)、编程智能体及搜索Agent等前沿能力未在本次测试中充分体现(多模态评测将在后续更新)。读者可通过文末的官方评测数据了解其在这些方向上的表现。

Qwen3.5-122B-A10B版本评测数据概览:
* 测试题数:约1.5万
* 总分(准确率):74.0%
* 平均耗时(每次调用):338秒
* 平均Token消耗(每次调用):5262
* 平均花费(每千次调用):32.3元

1. 对比Qwen3-Max

官方称其在纯文本任务上可媲美Qwen3-Max,因此我们选取qwen3-max-think-2026-01-23作为参照。需注意,两者并非同一产品线的迭代关系:Qwen3-Max是上一代旗舰级商用模型,而Qwen3.5-122B-A10B是新一代Medium级别的开源模型。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低 阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

数据来源:非线智能ReLE评测 (https://github.com/jeinlee1991/chinese-llm-benchmark)
输出价格单位:元/百万Token

  • 总分对比:Qwen3.5-122B-A10B以74.0%的准确率超过qwen3-max-think-2026-01-23的72.8%,高出1.2个百分点,排名从第6位升至第4位。在我们的中文评测中,“小模型媲美大模型”的官方定位基本得到验证,甚至略有超越。
  • 推理与数学计算能力显著提升:这是两者差距最大的维度,Qwen3.5-122B-A10B达到85.5%,qwen3-max-think-2026-01-23为79.9%,领先5.6个百分点。这与官方在GPQA Diamond(86.6)和HMMT数学竞赛(91.4)上的高分表现相呼应。
  • 法律与行政公务领域表现突出:Qwen3.5-122B-A10B为84.7%,qwen3-max-think-2026-01-23为80.3%,领先4.4个百分点。
  • 教育领域有所改善:Qwen3.5-122B-A10B为59.1%,qwen3-max-think-2026-01-23为54.4%,高出4.7个百分点,但该领域仍是各维度中的相对短板。
  • 医疗与心理健康基本持平:Qwen3.5-122B-A10B为84.8%,qwen3-max-think-2026-01-23为84.3%,差距仅0.5个百分点,表现稳定。
  • 部分领域存在小幅回调
    • 金融领域qwen3-max-think-2026-01-23(85.6%)略优于Qwen3.5-122B-A10B(83.4%),差距2.2个百分点。
    • Agent与工具调用维度同样如此,qwen3-max-think-2026-01-23(68.6%)高于Qwen3.5-122B-A10B(65.0%),差距3.6个百分点。需注意,Qwen3.5-122B-A10B在官方标准化Agent评测中表现优异,此处差异可能与我们的中文测试场景设计有关。
  • 语言与指令遵从基本持平:Qwen3.5-122B-A10B为66.2%,qwen3-max-think-2026-01-23为65.5%,差距0.7个百分点。
  • 响应速度偏慢:Qwen3.5-122B-A10B平均耗时338秒,qwen3-max-think-2026-01-23为214秒。这可能与模型部署环境配置及推理深度有关。

2. 对比其他新模型

在当前主流大模型竞争格局中,Qwen3.5-122B-A10B表现如何?我们选择了具有代表性的模型进行横向对比分析。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

数据来源:非线智能ReLE评测 (https://github.com/jeinlee1991/chinese-llm-benchmark)

同成本档位对比:
* 在30-35元/千次的区间内,Qwen3.5-122B-A10B以74.0%的准确率和32.3元的成本,处于该区间的领先位置。总分相近的gemini-3.1-pro-preview以74.8%的准确率排名第2,但成本高达250.5元,两者在中文场景下的成本差距明显。
* 放宽至20-35元区间来看,qwen3.5-plus(74.6%,22.9元)以更低的成本实现了更高的准确率,Doubao-Seed-2.0-pro(76.5%,22.5元)同样具备较强竞争力。Qwen3.5-27B(72.4%,25元)成本相近但准确率低1.6个百分点。

新旧模型对比:
* Qwen3.5系列内部qwen3.5-plus(74.6%,第3位) > Qwen3.5-122B-A10B(74.0%,第4位) > Qwen3.5-27B(72.4%,第8位) > qwen3.5-flash(70.8%,第19位),从大杯到小杯呈现出稳步的性能梯度,产品线布局合理。
* 对比其他厂商新模型:Qwen3.5-122B-A10B(74.0%)超过了GLM-4.7(71.5%,第13位)、GLM-5(71.0%,第16位)、ERNIE-5.0(70.9%,第17位)、DeepSeek-V3.2-Think(70.9%,第18位)等在榜主流模型,极具竞争力。
* 对比阿里上一代产品:相较qwen3-max-2025-09-23(66.8%,第43位)和qwen3-235b-a22b-thinking-2507(65.5%,第51位),Qwen3.5-122B-A10B的领先幅度分别达到7.2和8.5个百分点,代际进步显著。

开源VS闭源对比:
* 开源阵营前列:从总分来看,Qwen3.5-122B-A10B在开源模型中仅次于qwen3.5-plus(74.6%),排名第2,超过了GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)、GLM-5(71.0%)、DeepSeek-V3.2-Think(70.9%)等开源模型。
* 对比闭源模型:在中文场景下,其总分超过了gemini-3-pro-preview(72.5%,商用)、claude-opus-4.6(70.5%,商用)、gpt-5.1-high(69.7%,商用)等多个闭源模型。作为仅激活100亿参数的开源MoE模型,在综合排名中位列第4,体现了Qwen3.5系列在架构效率上的突破。

3. 官方评测

根据Qwen官方(https://modelscope.cn/models/Qwen/Qwen3.5-122B-A10B)的数据,Qwen3.5-122B-A10B在多项基准上展现了接近甚至超越前代旗舰和同级竞品的表现。对比模型包括GPT-5-mini、GPT-OSS-120B、Qwen3-235B-A22B等。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

  • 知识与推理能力突出:MMLU-Pro达86.7,GPQA Diamond达86.6,均超过GPT-5-mini和Qwen3-235B-A22B;HMMT Feb 2025数学竞赛达91.4,在所有对比模型中最高。

  • 编程与 Agent 能力表现突出:在 SWE-bench Verified 上达到 72.0(与 GPT-5-mini 持平),在 Terminal Bench 2 上达到 49.4(显著领先于 GPT-5-mini 的 31.9);其 BFCL-V4 函数调用能力达 72.2,BrowseComp 搜索 Agent 能力达 63.8,均在同级别模型中处于领先地位。

  • 指令遵从与多语言能力稳健:IFBench 得分 76.1,MMMLU 得分 86.7,在各对比模型中均名列前茅。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

  • 多模态视觉理解能力强劲:在 MMMU-Pro 上达到 76.9,OmniDocBench v1.5 上达到 89.8,OCRBench 上达到 92.1,MathVision 上达到 86.2,在 Medium 级别模型中处于领先位置,部分指标超越了前代旗舰模型 Qwen3-VL-235B-A22B。
  • 视觉 Agent 能力值得关注:在 ScreenSpot Pro 上达到 70.4,OSWorld-Verified 上达到 58.0,展现出较强的图形用户界面(GUI)自动化操作能力。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23161

(0)
上一篇 22小时前
下一篇 16小时前

相关推荐