阿里Qwen3.5-Plus实测：3970亿参数模型性能飙升，成本骤降47%

阿里正式发布Qwen3.5系列，并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型，Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，总参数量达3970亿，每次前向传播仅激活170亿参数。Qwen3.5-Plus为该模型的API版本。

我们对Qwen3.5-Plus进行了全面评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

Qwen3.5-Plus版本表现：
* 测试题数：约1.5万
* 总分（准确率）：74.6%
* 平均耗时（每次调用）：57s
* 平均token（每次调用消耗的token）：4975
* 平均花费（每千次调用的人民币花费）：22.9

1、新旧版本对比

首先对比版本（qwen3-max-think-2026-01-23），数据如下：

数据来源：非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位：元/百万token

整体性能显著提升：新版本准确率从72.8%提升至74.6%，提升了1.8个百分点，排名从第4位升至第2位，仅次于Doubao-Seed-2.0-pro。
教育领域大幅跃升：从细分来看，“教育”领域提升显著，从54.4%大幅跃升至60.9%，增幅达6.5个百分点，表明新模型在教育场景下的知识覆盖和推理能力有了质的改善。
推理与数学计算稳步提升：“推理与数学计算能力”从79.9%提升至80.4%（+0.5%），保持了较高水准。
Agent与工具调用能力显著增强：“agent与工具调用”从68.6%提升至73.7%，增幅达5.1个百分点，这与Qwen3.5主打的“原生智能体时代”定位高度吻合。
部分领域存在权衡：值得注意的是，“医疗与心理健康”略有下降（84.3% vs 84.8%，差距不大），“金融”领域从85.6%降至83.4%（-2.2%），模型在能力调整过程中存在一定的取舍。
速度大幅提升但Token消耗增加：平均耗时从214s大幅缩短至57s，提速约73%，用户体验显著改善。但平均Token消耗从4540增加至4975（+9.6%），反映出新架构在推理效率上的不同策略。
成本显著下降：每千次调用的费用从43.5元降至22.9元，成本下降约47%，结合输出价格从10.0元/M token降至4.8元/M token，实现了性能提升与成本优化的双赢。

2、对比其他模型

在当前主流大模型竞争格局中，qwen3.5-plus表现如何？我们选择了具有代表性的模型进行横向对比分析：

数据来源：非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 在花费20-25元/千次的区间内，qwen3.5-plus以74.6%的准确率和22.9元的花费，位列该档位的领先位置。同档位的Doubao-Seed-2.0-pro以76.5%的准确率和22.5元的花费位居榜首，两者差距仅1.9个百分点，但花费几乎相当。
* 值得关注的是，qwen-plus-think-2025-07-28（67.5%，26元）和qwen-plus-think-2025-12-01（64.2%，27.1元）作为阿里的中端产品，在同等花费水平下与qwen3.5-plus存在较大差距。

新旧模型对比
* 代际升级成效显著：相比qwen3-max-think-2026-01-23（72.8%），qwen3.5-plus提升了1.8个百分点；相比更早的qwen3-max-2025-09-23（66.8%），差距更是拉大到7.8个百分点。
* 阿里产品线内部分化明显：在排行榜中，阿里系模型呈现明显的梯队分布——qwen3.5-plus（74.6%，第2位）领跑，qwen3-max-think-2026-01-23（72.8%，第4位）紧随其后，而qwen3-max-preview-think（68.2%，第26位）、qwen3-max-2026-01-23（67.6%，第30位）、qwen3-235b-a22b-thinking-2507（65.5%，第47位）则分布在中游偏下位置。
* 对比其他厂商的新模型：qwen3.5-plus（74.6%）超过了GLM-5（71.0%，第13位）、ERNIE-5.0（70.9%，第14位）、DeepSeek-V3.2-Think（70.9%，第15位）等近期发布的新模型，展现了较强的竞争力。但与榜首的Doubao-Seed-2.0-pro（76.5%）仍有约2个百分点的差距。

开源VS闭源对比
* 开源标杆地位：从总分来看，qwen3.5-plus标注为“开源”模型（基于Apache 2.0协议开放权重的Qwen3.5-397B-A17B），在开源模型中排名第1，超越了所有其他开源模型。
* 对比闭源模型：从总分看，qwen3.5-plus超过了多个闭源模型，包括Doubao-Seed-2.0-lite（73.9%，商用）、claude-opus-4.6（70.5%，商用）、gpt-5.1-high（69.7%，商用）等。

3、官方评测

根据Qwen官方博客（https://qwen.ai/blog?id=qwen3.5），Qwen3.5-397B-A17B 在多个关键维度与当前主流的闭源大模型进行了量化对比。测试广泛覆盖了指令遵循、复杂推理、智能体（Agentic）能力以及多模态理解等核心评测领域。具体数据分析如下：

指令遵循与智能体能力
在基础交互与智能体应用层面，Qwen3.5-397B-A17B 表现出显著的优势与差异化特征：
* 指令遵循 (IFBench) 与智能体搜索 (BrowseComp)：该模型在这两项测试中均位列第一。其中，IFBench 得分为 76.5，略高于 GPT-5.2（75.4）；BrowseComp 测试中则以 78.6 的得分大幅度领先于 Claude Opus 4.5（67.8）和 GPT-5.2（65.8）。
* 工具调用 (BFCL V4)：表现优异，得分为 72.9，在该任务中仅次于 Claude Opus 4.5（77.5），排名第二。
* 代码与终端操作：在智能体代码编写 (SWE-bench Verified) 和终端代码操作 (Terminal-Bench 2) 中，得分分别为 76.4 和 52.5。相较而言，Claude Opus 4.5 和 GPT-5.2 在这两类复杂编程任务中保持了更为领先的地位。

学科知识与复杂推理
在考验模型知识广度与深度的传统文本测试基准中，各头部模型竞争激烈：
* 研究生级推理 (GPQA Diamond)： GPT-5.2 以 92.4 的高分占据绝对优势。Qwen3.5-397B-A17B 测得 88.4 分，优于 Claude Opus 4.5（87.0），但落后于 GPT-5.2 与 Gemini 3 Pro（91.9）。
* 多语言综合知识 (MMMLU)：评测结果呈现高分密集分布，Gemini 3 Pro 以 90.6 位居榜首，Qwen3.5-397B-A17B 得分 88.5，模型间差距被控制在 2% 以内，表明其具备稳定的跨语言知识体系。

多模态与视觉理解

在包含视觉信息的评测任务中（官方图表引入了视觉特化模型 Qwen3-VL-235B-A22B 作为内部参考），Qwen3.5-397B-A17B 同样展现了极强的泛化能力：

文档识别与理解 (OmniDocBench v1.5)：取得 90.8 的最高分，超越了所有对比的闭源旗舰模型（第二名 Gemini 3 Pro 为 88.5）。
视频推理 (Video-MME) 与具身推理 (ERQA)：该模型分别斩获 87.5 和 67.5 的成绩，两项基准均稳居第二，仅次于 Gemini 3 Pro，且在 ERQA 中对 GPT-5.2（59.8）拉开了显著的分数优势。
视觉推理综合评测 (MMMU-Pro)：得分为 79.0，与 GPT-5.2（79.5）处于同一梯队。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/22187

阿里Qwen3.5-Plus实测：3970亿参数模型性能飙升，成本骤降47%

1、新旧版本对比

2、对比其他模型

3、官方评测

多模态与视觉理解

相关推荐

PF-LLM：大语言模型破解硬件预取困境，静态代码分析实现智能内存访问优化

揭秘大模型幻觉根源：清华大学发现“讨好神经元”H-Neurons

NitroGen：英伟达开源通用游戏AI模型，可零样本玩转千款游戏

OpenMemory：开源AI长期记忆系统，为聊天机器人装上“人工大脑”

Vision Agents：开源框架革新实时视频AI，构建多模态智能体的终极解决方案