阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达3970亿,每次前向传播仅激活170亿参数。Qwen3.5-Plus为该模型的API版本。
我们对Qwen3.5-Plus进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。
Qwen3.5-Plus版本表现:
* 测试题数:约1.5万
* 总分(准确率):74.6%
* 平均耗时(每次调用):57s
* 平均token(每次调用消耗的token):4975
* 平均花费(每千次调用的人民币花费):22.9
1、新旧版本对比
首先对比版本(qwen3-max-think-2026-01-23),数据如下:


数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位:元/百万token
- 整体性能显著提升:新版本准确率从72.8%提升至74.6%,提升了1.8个百分点,排名从第4位升至第2位,仅次于Doubao-Seed-2.0-pro。
- 教育领域大幅跃升:从细分来看,“教育”领域提升显著,从54.4%大幅跃升至60.9%,增幅达6.5个百分点,表明新模型在教育场景下的知识覆盖和推理能力有了质的改善。
- 推理与数学计算稳步提升:“推理与数学计算能力”从79.9%提升至80.4%(+0.5%),保持了较高水准。
- Agent与工具调用能力显著增强:“agent与工具调用”从68.6%提升至73.7%,增幅达5.1个百分点,这与Qwen3.5主打的“原生智能体时代”定位高度吻合。
- 部分领域存在权衡:值得注意的是,“医疗与心理健康”略有下降(84.3% vs 84.8%,差距不大),“金融”领域从85.6%降至83.4%(-2.2%),模型在能力调整过程中存在一定的取舍。
- 速度大幅提升但Token消耗增加:平均耗时从214s大幅缩短至57s,提速约73%,用户体验显著改善。但平均Token消耗从4540增加至4975(+9.6%),反映出新架构在推理效率上的不同策略。
- 成本显著下降:每千次调用的费用从43.5元降至22.9元,成本下降约47%,结合输出价格从10.0元/M token降至4.8元/M token,实现了性能提升与成本优化的双赢。
2、对比其他模型
在当前主流大模型竞争格局中,qwen3.5-plus表现如何?我们选择了具有代表性的模型进行横向对比分析:

数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
* 在花费20-25元/千次的区间内,qwen3.5-plus以74.6%的准确率和22.9元的花费,位列该档位的领先位置。同档位的Doubao-Seed-2.0-pro以76.5%的准确率和22.5元的花费位居榜首,两者差距仅1.9个百分点,但花费几乎相当。
* 值得关注的是,qwen-plus-think-2025-07-28(67.5%,26元)和qwen-plus-think-2025-12-01(64.2%,27.1元)作为阿里的中端产品,在同等花费水平下与qwen3.5-plus存在较大差距。
新旧模型对比
* 代际升级成效显著:相比qwen3-max-think-2026-01-23(72.8%),qwen3.5-plus提升了1.8个百分点;相比更早的qwen3-max-2025-09-23(66.8%),差距更是拉大到7.8个百分点。
* 阿里产品线内部分化明显:在排行榜中,阿里系模型呈现明显的梯队分布——qwen3.5-plus(74.6%,第2位)领跑,qwen3-max-think-2026-01-23(72.8%,第4位)紧随其后,而qwen3-max-preview-think(68.2%,第26位)、qwen3-max-2026-01-23(67.6%,第30位)、qwen3-235b-a22b-thinking-2507(65.5%,第47位)则分布在中游偏下位置。
* 对比其他厂商的新模型:qwen3.5-plus(74.6%)超过了GLM-5(71.0%,第13位)、ERNIE-5.0(70.9%,第14位)、DeepSeek-V3.2-Think(70.9%,第15位)等近期发布的新模型,展现了较强的竞争力。但与榜首的Doubao-Seed-2.0-pro(76.5%)仍有约2个百分点的差距。
开源VS闭源对比
* 开源标杆地位:从总分来看,qwen3.5-plus标注为“开源”模型(基于Apache 2.0协议开放权重的Qwen3.5-397B-A17B),在开源模型中排名第1,超越了所有其他开源模型。
* 对比闭源模型:从总分看,qwen3.5-plus超过了多个闭源模型,包括Doubao-Seed-2.0-lite(73.9%,商用)、claude-opus-4.6(70.5%,商用)、gpt-5.1-high(69.7%,商用)等。
3、官方评测
根据Qwen官方博客(https://qwen.ai/blog?id=qwen3.5),Qwen3.5-397B-A17B 在多个关键维度与当前主流的闭源大模型进行了量化对比。测试广泛覆盖了指令遵循、复杂推理、智能体(Agentic)能力以及多模态理解等核心评测领域。具体数据分析如下:

指令遵循与智能体能力
在基础交互与智能体应用层面,Qwen3.5-397B-A17B 表现出显著的优势与差异化特征:
* 指令遵循 (IFBench) 与智能体搜索 (BrowseComp): 该模型在这两项测试中均位列第一。其中,IFBench 得分为 76.5,略高于 GPT-5.2(75.4);BrowseComp 测试中则以 78.6 的得分大幅度领先于 Claude Opus 4.5(67.8)和 GPT-5.2(65.8)。
* 工具调用 (BFCL V4): 表现优异,得分为 72.9,在该任务中仅次于 Claude Opus 4.5(77.5),排名第二。
* 代码与终端操作: 在智能体代码编写 (SWE-bench Verified) 和终端代码操作 (Terminal-Bench 2) 中,得分分别为 76.4 和 52.5。相较而言,Claude Opus 4.5 和 GPT-5.2 在这两类复杂编程任务中保持了更为领先的地位。
学科知识与复杂推理
在考验模型知识广度与深度的传统文本测试基准中,各头部模型竞争激烈:
* 研究生级推理 (GPQA Diamond): GPT-5.2 以 92.4 的高分占据绝对优势。Qwen3.5-397B-A17B 测得 88.4 分,优于 Claude Opus 4.5(87.0),但落后于 GPT-5.2 与 Gemini 3 Pro(91.9)。
* 多语言综合知识 (MMMLU): 评测结果呈现高分密集分布,Gemini 3 Pro 以 90.6 位居榜首,Qwen3.5-397B-A17B 得分 88.5,模型间差距被控制在 2% 以内,表明其具备稳定的跨语言知识体系。
多模态与视觉理解
在包含视觉信息的评测任务中(官方图表引入了视觉特化模型 Qwen3-VL-235B-A22B 作为内部参考),Qwen3.5-397B-A17B 同样展现了极强的泛化能力:
- 文档识别与理解 (OmniDocBench v1.5):取得 90.8 的最高分,超越了所有对比的闭源旗舰模型(第二名 Gemini 3 Pro 为 88.5)。
- 视频推理 (Video-MME) 与具身推理 (ERQA):该模型分别斩获 87.5 和 67.5 的成绩,两项基准均稳居第二,仅次于 Gemini 3 Pro,且在 ERQA 中对 GPT-5.2(59.8)拉开了显著的分数优势。
- 视觉推理综合评测 (MMMU-Pro):得分为 79.0,与 GPT-5.2(79.5)处于同一梯队。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22187
