阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型,总参数量为1220亿,采用256个专家的稀疏混合专家(MoE)架构,每次前向传播仅激活约100亿参数。该模型基于Gated Delta Networks与稀疏MoE的混合架构,支持文本、图像和视频输入。官方宣称其在纯文本任务上的性能可媲美前代旗舰模型Qwen3-Max,同时成本更低;其多模态能力相比Qwen3-VL系列也有显著提升。

我们对Qwen3.5-122B-A10B进行了全面评测,重点考察其在中文场景下的准确率、响应时间、Token消耗及成本等关键指标。需要说明的是,本次评测以文本能力为主,模型原生支持的多模态理解、视觉Agent操作(GUI自动化)、编程智能体及搜索Agent等前沿能力未在本次测试中充分体现(多模态评测将在后续更新)。读者可通过文末的官方评测数据了解其在这些方向上的表现。

Qwen3.5-122B-A10B版本评测数据概览:
* 测试题数:约1.5万
* 总分(准确率):74.0%
* 平均耗时(每次调用):338秒
* 平均Token消耗(每次调用):5262
* 平均花费(每千次调用):32.3元

1. 对比Qwen3-Max

官方称其在纯文本任务上可媲美Qwen3-Max,因此我们选取qwen3-max-think-2026-01-23作为参照。需注意,两者并非同一产品线的迭代关系:Qwen3-Max是上一代旗舰级商用模型,而Qwen3.5-122B-A10B是新一代Medium级别的开源模型。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低 阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

数据来源:非线智能ReLE评测 (https://github.com/jeinlee1991/chinese-llm-benchmark)
输出价格单位:元/百万Token

  • 总分对比:Qwen3.5-122B-A10B以74.0%的准确率超过qwen3-max-think-2026-01-23的72.8%,高出1.2个百分点,排名从第6位升至第4位。在我们的中文评测中,“小模型媲美大模型”的官方定位基本得到验证,甚至略有超越。
  • 推理与数学计算能力显著提升:这是两者差距最大的维度,Qwen3.5-122B-A10B达到85.5%,qwen3-max-think-2026-01-23为79.9%,领先5.6个百分点。这与官方在GPQA Diamond(86.6)和HMMT数学竞赛(91.4)上的高分表现相呼应。
  • 法律与行政公务领域表现突出:Qwen3.5-122B-A10B为84.7%,qwen3-max-think-2026-01-23为80.3%,领先4.4个百分点。
  • 教育领域有所改善:Qwen3.5-122B-A10B为59.1%,qwen3-max-think-2026-01-23为54.4%,高出4.7个百分点,但该领域仍是各维度中的相对短板。
  • 医疗与心理健康基本持平:Qwen3.5-122B-A10B为84.8%,qwen3-max-think-2026-01-23为84.3%,差距仅0.5个百分点,表现稳定。
  • 部分领域存在小幅回调
    • 金融领域qwen3-max-think-2026-01-23(85.6%)略优于Qwen3.5-122B-A10B(83.4%),差距2.2个百分点。
    • Agent与工具调用维度同样如此,qwen3-max-think-2026-01-23(68.6%)高于Qwen3.5-122B-A10B(65.0%),差距3.6个百分点。需注意,Qwen3.5-122B-A10B在官方标准化Agent评测中表现优异,此处差异可能与我们的中文测试场景设计有关。
  • 语言与指令遵从基本持平:Qwen3.5-122B-A10B为66.2%,qwen3-max-think-2026-01-23为65.5%,差距0.7个百分点。
  • 响应速度偏慢:Qwen3.5-122B-A10B平均耗时338秒,qwen3-max-think-2026-01-23为214秒。这可能与模型部署环境配置及推理深度有关。

2. 对比其他新模型

在当前主流大模型竞争格局中,Qwen3.5-122B-A10B表现如何?我们选择了具有代表性的模型进行横向对比分析。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

数据来源:非线智能ReLE评测 (https://github.com/jeinlee1991/chinese-llm-benchmark)

同成本档位对比:
* 在30-35元/千次的区间内,Qwen3.5-122B-A10B以74.0%的准确率和32.3元的成本,处于该区间的领先位置。总分相近的gemini-3.1-pro-preview以74.8%的准确率排名第2,但成本高达250.5元,两者在中文场景下的成本差距明显。
* 放宽至20-35元区间来看,qwen3.5-plus(74.6%,22.9元)以更低的成本实现了更高的准确率,Doubao-Seed-2.0-pro(76.5%,22.5元)同样具备较强竞争力。Qwen3.5-27B(72.4%,25元)成本相近但准确率低1.6个百分点。

新旧模型对比:
* Qwen3.5系列内部qwen3.5-plus(74.6%,第3位) > Qwen3.5-122B-A10B(74.0%,第4位) > Qwen3.5-27B(72.4%,第8位) > qwen3.5-flash(70.8%,第19位),从大杯到小杯呈现出稳步的性能梯度,产品线布局合理。
* 对比其他厂商新模型:Qwen3.5-122B-A10B(74.0%)超过了GLM-4.7(71.5%,第13位)、GLM-5(71.0%,第16位)、ERNIE-5.0(70.9%,第17位)、DeepSeek-V3.2-Think(70.9%,第18位)等在榜主流模型,极具竞争力。
* 对比阿里上一代产品:相较qwen3-max-2025-09-23(66.8%,第43位)和qwen3-235b-a22b-thinking-2507(65.5%,第51位),Qwen3.5-122B-A10B的领先幅度分别达到7.2和8.5个百分点,代际进步显著。

开源VS闭源对比:
* 开源阵营前列:从总分来看,Qwen3.5-122B-A10B在开源模型中仅次于qwen3.5-plus(74.6%),排名第2,超过了GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)、GLM-5(71.0%)、DeepSeek-V3.2-Think(70.9%)等开源模型。
* 对比闭源模型:在中文场景下,其总分超过了gemini-3-pro-preview(72.5%,商用)、claude-opus-4.6(70.5%,商用)、gpt-5.1-high(69.7%,商用)等多个闭源模型。作为仅激活100亿参数的开源MoE模型,在综合排名中位列第4,体现了Qwen3.5系列在架构效率上的突破。

3. 官方评测

根据Qwen官方(https://modelscope.cn/models/Qwen/Qwen3.5-122B-A10B)的数据,Qwen3.5-122B-A10B在多项基准上展现了接近甚至超越前代旗舰和同级竞品的表现。对比模型包括GPT-5-mini、GPT-OSS-120B、Qwen3-235B-A22B等。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

  • 知识与推理能力突出:MMLU-Pro达86.7,GPQA Diamond达86.6,均超过GPT-5-mini和Qwen3-235B-A22B;HMMT Feb 2025数学竞赛达91.4,在所有对比模型中最高。

  • 编程与 Agent 能力表现突出:在 SWE-bench Verified 上达到 72.0(与 GPT-5-mini 持平),在 Terminal Bench 2 上达到 49.4(显著领先于 GPT-5-mini 的 31.9);其 BFCL-V4 函数调用能力达 72.2,BrowseComp 搜索 Agent 能力达 63.8,均在同级别模型中处于领先地位。

  • 指令遵从与多语言能力稳健:IFBench 得分 76.1,MMMLU 得分 86.7,在各对比模型中均名列前茅。

阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低

  • 多模态视觉理解能力强劲:在 MMMU-Pro 上达到 76.9,OmniDocBench v1.5 上达到 89.8,OCRBench 上达到 92.1,MathVision 上达到 86.2,在 Medium 级别模型中处于领先位置,部分指标超越了前代旗舰模型 Qwen3-VL-235B-A22B。
  • 视觉 Agent 能力值得关注:在 ScreenSpot Pro 上达到 70.4,OSWorld-Verified 上达到 58.0,展现出较强的图形用户界面(GUI)自动化操作能力。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23161

(0)
上一篇 2026年2月26日 上午8:24
下一篇 2026年2月26日 下午2:24

相关推荐

  • 通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

    核心结论:开源新锐的剑之所及 基本情况: 通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。 官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显…

    2026年2月26日
    42400
  • EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

    现如今,大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而,我们或许会怀疑:在一句句“高情商回复”的背后,模型是否真正理解了共情。 在情感陪伴与心理支持等真实场景中,人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪,更会潜移默化地改变后续对话的轨迹。真正有效的共情,需要模型在长期的多轮互动中,持续观察并理解对方的潜在心理状态,…

    2026年3月18日
    36000
  • OpenAI重磅研究:推理越强的AI,越管不住自己的“脑子”!思维链可控性测试惊现0.1%成功率

    【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象:推理能力越强的模型,越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也仅有2.7%。 向AI下达一条明确的指令:在推理过程中,严禁出现“XOR”一词。 模型开始正常推理,但…

    2026年3月9日
    17700
  • DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破

    深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…

    2025年12月4日
    25700
  • 实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏

    谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…

    2025年11月21日
    23400