阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达3970亿,每次前向传播仅激活170亿参数。Qwen3.5-Plus为该模型的API版本。

我们对Qwen3.5-Plus进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

Qwen3.5-Plus版本表现:
* 测试题数:约1.5万
* 总分(准确率):74.6%
* 平均耗时(每次调用):57s
* 平均token(每次调用消耗的token):4975
* 平均花费(每千次调用的人民币花费):22.9

1、新旧版本对比

首先对比版本(qwen3-max-think-2026-01-23),数据如下:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位:元/百万token

  • 整体性能显著提升:新版本准确率从72.8%提升至74.6%,提升了1.8个百分点,排名从第4位升至第2位,仅次于Doubao-Seed-2.0-pro。
  • 教育领域大幅跃升:从细分来看,“教育”领域提升显著,从54.4%大幅跃升至60.9%,增幅达6.5个百分点,表明新模型在教育场景下的知识覆盖和推理能力有了质的改善。
  • 推理与数学计算稳步提升:“推理与数学计算能力”从79.9%提升至80.4%(+0.5%),保持了较高水准。
  • Agent与工具调用能力显著增强:“agent与工具调用”从68.6%提升至73.7%,增幅达5.1个百分点,这与Qwen3.5主打的“原生智能体时代”定位高度吻合。
  • 部分领域存在权衡:值得注意的是,“医疗与心理健康”略有下降(84.3% vs 84.8%,差距不大),“金融”领域从85.6%降至83.4%(-2.2%),模型在能力调整过程中存在一定的取舍。
  • 速度大幅提升但Token消耗增加:平均耗时从214s大幅缩短至57s,提速约73%,用户体验显著改善。但平均Token消耗从4540增加至4975(+9.6%),反映出新架构在推理效率上的不同策略。
  • 成本显著下降:每千次调用的费用从43.5元降至22.9元,成本下降约47%,结合输出价格从10.0元/M token降至4.8元/M token,实现了性能提升与成本优化的双赢。

2、对比其他模型

在当前主流大模型竞争格局中,qwen3.5-plus表现如何?我们选择了具有代表性的模型进行横向对比分析:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 在花费20-25元/千次的区间内,qwen3.5-plus以74.6%的准确率和22.9元的花费,位列该档位的领先位置。同档位的Doubao-Seed-2.0-pro以76.5%的准确率和22.5元的花费位居榜首,两者差距仅1.9个百分点,但花费几乎相当。
* 值得关注的是,qwen-plus-think-2025-07-28(67.5%,26元)和qwen-plus-think-2025-12-01(64.2%,27.1元)作为阿里的中端产品,在同等花费水平下与qwen3.5-plus存在较大差距。

新旧模型对比
* 代际升级成效显著:相比qwen3-max-think-2026-01-23(72.8%),qwen3.5-plus提升了1.8个百分点;相比更早的qwen3-max-2025-09-23(66.8%),差距更是拉大到7.8个百分点。
* 阿里产品线内部分化明显:在排行榜中,阿里系模型呈现明显的梯队分布——qwen3.5-plus(74.6%,第2位)领跑,qwen3-max-think-2026-01-23(72.8%,第4位)紧随其后,而qwen3-max-preview-think(68.2%,第26位)、qwen3-max-2026-01-23(67.6%,第30位)、qwen3-235b-a22b-thinking-2507(65.5%,第47位)则分布在中游偏下位置。
* 对比其他厂商的新模型:qwen3.5-plus(74.6%)超过了GLM-5(71.0%,第13位)、ERNIE-5.0(70.9%,第14位)、DeepSeek-V3.2-Think(70.9%,第15位)等近期发布的新模型,展现了较强的竞争力。但与榜首的Doubao-Seed-2.0-pro(76.5%)仍有约2个百分点的差距。

开源VS闭源对比
* 开源标杆地位:从总分来看,qwen3.5-plus标注为“开源”模型(基于Apache 2.0协议开放权重的Qwen3.5-397B-A17B),在开源模型中排名第1,超越了所有其他开源模型。
* 对比闭源模型:从总分看,qwen3.5-plus超过了多个闭源模型,包括Doubao-Seed-2.0-lite(73.9%,商用)、claude-opus-4.6(70.5%,商用)、gpt-5.1-high(69.7%,商用)等。

3、官方评测

根据Qwen官方博客(https://qwen.ai/blog?id=qwen3.5),Qwen3.5-397B-A17B 在多个关键维度与当前主流的闭源大模型进行了量化对比。测试广泛覆盖了指令遵循、复杂推理、智能体(Agentic)能力以及多模态理解等核心评测领域。具体数据分析如下:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

指令遵循与智能体能力
在基础交互与智能体应用层面,Qwen3.5-397B-A17B 表现出显著的优势与差异化特征:
* 指令遵循 (IFBench) 与智能体搜索 (BrowseComp): 该模型在这两项测试中均位列第一。其中,IFBench 得分为 76.5,略高于 GPT-5.2(75.4);BrowseComp 测试中则以 78.6 的得分大幅度领先于 Claude Opus 4.5(67.8)和 GPT-5.2(65.8)。
* 工具调用 (BFCL V4): 表现优异,得分为 72.9,在该任务中仅次于 Claude Opus 4.5(77.5),排名第二。
* 代码与终端操作: 在智能体代码编写 (SWE-bench Verified) 和终端代码操作 (Terminal-Bench 2) 中,得分分别为 76.4 和 52.5。相较而言,Claude Opus 4.5 和 GPT-5.2 在这两类复杂编程任务中保持了更为领先的地位。

学科知识与复杂推理
在考验模型知识广度与深度的传统文本测试基准中,各头部模型竞争激烈:
* 研究生级推理 (GPQA Diamond): GPT-5.2 以 92.4 的高分占据绝对优势。Qwen3.5-397B-A17B 测得 88.4 分,优于 Claude Opus 4.5(87.0),但落后于 GPT-5.2 与 Gemini 3 Pro(91.9)。
* 多语言综合知识 (MMMLU): 评测结果呈现高分密集分布,Gemini 3 Pro 以 90.6 位居榜首,Qwen3.5-397B-A17B 得分 88.5,模型间差距被控制在 2% 以内,表明其具备稳定的跨语言知识体系。

多模态与视觉理解

在包含视觉信息的评测任务中(官方图表引入了视觉特化模型 Qwen3-VL-235B-A22B 作为内部参考),Qwen3.5-397B-A17B 同样展现了极强的泛化能力:

  • 文档识别与理解 (OmniDocBench v1.5):取得 90.8 的最高分,超越了所有对比的闭源旗舰模型(第二名 Gemini 3 Pro 为 88.5)。
  • 视频推理 (Video-MME) 与具身推理 (ERQA):该模型分别斩获 87.5 和 67.5 的成绩,两项基准均稳居第二,仅次于 Gemini 3 Pro,且在 ERQA 中对 GPT-5.2(59.8)拉开了显著的分数优势。
  • 视觉推理综合评测 (MMMU-Pro):得分为 79.0,与 GPT-5.2(79.5)处于同一梯队。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22187

(0)
上一篇 2026年2月21日 下午12:02
下一篇 2026年2月21日 下午1:29

相关推荐

  • PF-LLM:大语言模型破解硬件预取困境,静态代码分析实现智能内存访问优化

    关键词:硬件预取、内存墙、大语言模型、CPU 微架构、硬件-软件协同设计 在追求单核性能的征途上,CPU 设计师们正面临一道难以逾越的天堑——“内存墙”。这道墙的另一边,是主存(DRAM)动辄数百个周期的访问延迟,而 CPU 核心的运算速度却已逼近物理极限。为了填平这道墙,现代处理器普遍采用了一项关键技术:硬件数据预取。它像一个未卜先知的预言家,提前将程序未…

    2026年3月31日
    16000
  • 揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

    大模型胡说八道的根源,可能并非数据或算法问题,而在于它试图“讨好”用户。 清华大学OpenBMB团队在最新研究中,首次识别出专门负责产生幻觉的神经元——H-Neurons。这一发现颇具反直觉色彩:模型说谎并非因为能力不足,而是它将“满足用户指令”的优先级,置于“陈述事实”之上。 核心发现可归纳为三点: 精准定位:H-Neurons仅占模型总神经元的不到0.1…

    2025年12月22日
    32800
  • NitroGen:英伟达开源通用游戏AI模型,可零样本玩转千款游戏

    这流畅的游戏操作,堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、攻击一气呵成,令人惊叹。 最令人震撼的是,这些操作完全由AI完成。 与传统的单一游戏自动化脚本不同,这是一个完整的通用大模型,能够玩遍市面上几乎全部的游戏类型。 这就是英伟达最新开源的基础模型——NitroGen。 该模型的训练目标是玩转1000款以上的游戏,无论是RPG、平台跳跃、…

    2025年12月21日
    27100
  • OpenMemory:开源AI长期记忆系统,为聊天机器人装上“人工大脑”

    大多数AI助手在对话结束后便会遗忘一切,它们无法记住你的姓名、偏好,甚至是前一天刚刚提及的细节。 这正是OpenMemory引人注目的原因。作为一个开源、可本地部署的系统,它为AI赋予了真正的长期记忆能力,相当于为你的聊天机器人或Copilot安装了一个“人工大脑”。 OpenMemory 是什么? 你可以将其视为AI的智能“备忘录”。它不仅仅是存储文本片段…

    2025年11月14日
    25000
  • Vision Agents:开源框架革新实时视频AI,构建多模态智能体的终极解决方案

    如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统,就会知道其技术栈有多么复杂。 视频需要一个 SDK。 语音需要另一个。 目标检测需要另一个。 大语言模型(LLM)还需要一个。 之后,你仍需将所有组件集成起来,处理延迟问题,并设法让整个系统实时运行。 Vision Agents 改变了这一切。 这是一个开源框架,旨在帮助开发者构建能…

    2025年12月17日
    30000