阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型，总参数量为1220亿，采用256个专家的稀疏混合专家（MoE）架构，每次前向传播仅激活约100亿参数。该模型基于Gated Delta Networks与稀疏MoE的混合架构，支持文本、图像和视频输入。官方宣称其在纯文本任务上的性能可媲美前代旗舰模型Qwen3-Max，同时成本更低；其多模态能力相比Qwen3-VL系列也有显著提升。

我们对Qwen3.5-122B-A10B进行了全面评测，重点考察其在中文场景下的准确率、响应时间、Token消耗及成本等关键指标。需要说明的是，本次评测以文本能力为主，模型原生支持的多模态理解、视觉Agent操作（GUI自动化）、编程智能体及搜索Agent等前沿能力未在本次测试中充分体现（多模态评测将在后续更新）。读者可通过文末的官方评测数据了解其在这些方向上的表现。

Qwen3.5-122B-A10B版本评测数据概览：
* 测试题数：约1.5万
* 总分（准确率）：74.0%
* 平均耗时（每次调用）：338秒
* 平均Token消耗（每次调用）：5262
* 平均花费（每千次调用）：32.3元

1. 对比Qwen3-Max

官方称其在纯文本任务上可媲美Qwen3-Max，因此我们选取qwen3-max-think-2026-01-23作为参照。需注意，两者并非同一产品线的迭代关系：Qwen3-Max是上一代旗舰级商用模型，而Qwen3.5-122B-A10B是新一代Medium级别的开源模型。

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

数据来源：非线智能ReLE评测 (https://github.com/jeinlee1991/chinese-llm-benchmark)
输出价格单位：元/百万Token

总分对比：Qwen3.5-122B-A10B以74.0%的准确率超过qwen3-max-think-2026-01-23的72.8%，高出1.2个百分点，排名从第6位升至第4位。在我们的中文评测中，“小模型媲美大模型”的官方定位基本得到验证，甚至略有超越。
推理与数学计算能力显著提升：这是两者差距最大的维度，Qwen3.5-122B-A10B达到85.5%，qwen3-max-think-2026-01-23为79.9%，领先5.6个百分点。这与官方在GPQA Diamond（86.6）和HMMT数学竞赛（91.4）上的高分表现相呼应。
法律与行政公务领域表现突出：Qwen3.5-122B-A10B为84.7%，qwen3-max-think-2026-01-23为80.3%，领先4.4个百分点。
教育领域有所改善：Qwen3.5-122B-A10B为59.1%，qwen3-max-think-2026-01-23为54.4%，高出4.7个百分点，但该领域仍是各维度中的相对短板。
医疗与心理健康基本持平：Qwen3.5-122B-A10B为84.8%，qwen3-max-think-2026-01-23为84.3%，差距仅0.5个百分点，表现稳定。
部分领域存在小幅回调：
- 金融领域qwen3-max-think-2026-01-23（85.6%）略优于Qwen3.5-122B-A10B（83.4%），差距2.2个百分点。
- Agent与工具调用维度同样如此，qwen3-max-think-2026-01-23（68.6%）高于Qwen3.5-122B-A10B（65.0%），差距3.6个百分点。需注意，Qwen3.5-122B-A10B在官方标准化Agent评测中表现优异，此处差异可能与我们的中文测试场景设计有关。
语言与指令遵从基本持平：Qwen3.5-122B-A10B为66.2%，qwen3-max-think-2026-01-23为65.5%，差距0.7个百分点。
响应速度偏慢：Qwen3.5-122B-A10B平均耗时338秒，qwen3-max-think-2026-01-23为214秒。这可能与模型部署环境配置及推理深度有关。

2. 对比其他新模型

在当前主流大模型竞争格局中，Qwen3.5-122B-A10B表现如何？我们选择了具有代表性的模型进行横向对比分析。

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

数据来源：非线智能ReLE评测 (https://github.com/jeinlee1991/chinese-llm-benchmark)

同成本档位对比：
* 在30-35元/千次的区间内，Qwen3.5-122B-A10B以74.0%的准确率和32.3元的成本，处于该区间的领先位置。总分相近的gemini-3.1-pro-preview以74.8%的准确率排名第2，但成本高达250.5元，两者在中文场景下的成本差距明显。
* 放宽至20-35元区间来看，qwen3.5-plus（74.6%，22.9元）以更低的成本实现了更高的准确率，Doubao-Seed-2.0-pro（76.5%，22.5元）同样具备较强竞争力。Qwen3.5-27B（72.4%，25元）成本相近但准确率低1.6个百分点。

新旧模型对比：
* Qwen3.5系列内部：qwen3.5-plus（74.6%，第3位） > Qwen3.5-122B-A10B（74.0%，第4位） > Qwen3.5-27B（72.4%，第8位） > qwen3.5-flash（70.8%，第19位），从大杯到小杯呈现出稳步的性能梯度，产品线布局合理。
* 对比其他厂商新模型：Qwen3.5-122B-A10B（74.0%）超过了GLM-4.7（71.5%，第13位）、GLM-5（71.0%，第16位）、ERNIE-5.0（70.9%，第17位）、DeepSeek-V3.2-Think（70.9%，第18位）等在榜主流模型，极具竞争力。
* 对比阿里上一代产品：相较qwen3-max-2025-09-23（66.8%，第43位）和qwen3-235b-a22b-thinking-2507（65.5%，第51位），Qwen3.5-122B-A10B的领先幅度分别达到7.2和8.5个百分点，代际进步显著。

开源VS闭源对比：
* 开源阵营前列：从总分来看，Qwen3.5-122B-A10B在开源模型中仅次于qwen3.5-plus（74.6%），排名第2，超过了GLM-4.7（71.5%）、Kimi-K2.5-Thinking（71.3%）、GLM-5（71.0%）、DeepSeek-V3.2-Think（70.9%）等开源模型。
* 对比闭源模型：在中文场景下，其总分超过了gemini-3-pro-preview（72.5%，商用）、claude-opus-4.6（70.5%，商用）、gpt-5.1-high（69.7%，商用）等多个闭源模型。作为仅激活100亿参数的开源MoE模型，在综合排名中位列第4，体现了Qwen3.5系列在架构效率上的突破。

3. 官方评测

根据Qwen官方（https://modelscope.cn/models/Qwen/Qwen3.5-122B-A10B）的数据，Qwen3.5-122B-A10B在多项基准上展现了接近甚至超越前代旗舰和同级竞品的表现。对比模型包括GPT-5-mini、GPT-OSS-120B、Qwen3-235B-A22B等。

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

知识与推理能力突出：MMLU-Pro达86.7，GPQA Diamond达86.6，均超过GPT-5-mini和Qwen3-235B-A22B；HMMT Feb 2025数学竞赛达91.4，在所有对比模型中最高。
编程与 Agent 能力表现突出：在 SWE-bench Verified 上达到 72.0（与 GPT-5-mini 持平），在 Terminal Bench 2 上达到 49.4（显著领先于 GPT-5-mini 的 31.9）；其 BFCL-V4 函数调用能力达 72.2，BrowseComp 搜索 Agent 能力达 63.8，均在同级别模型中处于领先地位。
指令遵从与多语言能力稳健：IFBench 得分 76.1，MMMLU 得分 86.7，在各对比模型中均名列前茅。

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

多模态视觉理解能力强劲：在 MMMU-Pro 上达到 76.9，OmniDocBench v1.5 上达到 89.8，OCRBench 上达到 92.1，MathVision 上达到 86.2，在 Medium 级别模型中处于领先位置，部分指标超越了前代旗舰模型 Qwen3-VL-235B-A22B。
视觉 Agent 能力值得关注：在 ScreenSpot Pro 上达到 70.4，OSWorld-Verified 上达到 58.0，展现出较强的图形用户界面（GUI）自动化操作能力。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23161

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

1. 对比Qwen3-Max

2. 对比其他新模型

3. 官方评测

相关推荐

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

OpenAI重磅研究：推理越强的AI，越管不住自己的“脑子”！思维链可控性测试惊现0.1%成功率

DeepSeek-V3.2实测：稀疏注意力机制DSA如何实现推理效率与性能的协同突破

实测Gemini 3 Pro：屠榜AI基准测试，一键生成网页应用与游戏