阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达3970亿,每次前向传播仅激活170亿参数。Qwen3.5-Plus为该模型的API版本。

我们对Qwen3.5-Plus进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

Qwen3.5-Plus版本表现:
* 测试题数:约1.5万
* 总分(准确率):74.6%
* 平均耗时(每次调用):57s
* 平均token(每次调用消耗的token):4975
* 平均花费(每千次调用的人民币花费):22.9

1、新旧版本对比

首先对比版本(qwen3-max-think-2026-01-23),数据如下:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位:元/百万token

  • 整体性能显著提升:新版本准确率从72.8%提升至74.6%,提升了1.8个百分点,排名从第4位升至第2位,仅次于Doubao-Seed-2.0-pro。
  • 教育领域大幅跃升:从细分来看,“教育”领域提升显著,从54.4%大幅跃升至60.9%,增幅达6.5个百分点,表明新模型在教育场景下的知识覆盖和推理能力有了质的改善。
  • 推理与数学计算稳步提升:“推理与数学计算能力”从79.9%提升至80.4%(+0.5%),保持了较高水准。
  • Agent与工具调用能力显著增强:“agent与工具调用”从68.6%提升至73.7%,增幅达5.1个百分点,这与Qwen3.5主打的“原生智能体时代”定位高度吻合。
  • 部分领域存在权衡:值得注意的是,“医疗与心理健康”略有下降(84.3% vs 84.8%,差距不大),“金融”领域从85.6%降至83.4%(-2.2%),模型在能力调整过程中存在一定的取舍。
  • 速度大幅提升但Token消耗增加:平均耗时从214s大幅缩短至57s,提速约73%,用户体验显著改善。但平均Token消耗从4540增加至4975(+9.6%),反映出新架构在推理效率上的不同策略。
  • 成本显著下降:每千次调用的费用从43.5元降至22.9元,成本下降约47%,结合输出价格从10.0元/M token降至4.8元/M token,实现了性能提升与成本优化的双赢。

2、对比其他模型

在当前主流大模型竞争格局中,qwen3.5-plus表现如何?我们选择了具有代表性的模型进行横向对比分析:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 在花费20-25元/千次的区间内,qwen3.5-plus以74.6%的准确率和22.9元的花费,位列该档位的领先位置。同档位的Doubao-Seed-2.0-pro以76.5%的准确率和22.5元的花费位居榜首,两者差距仅1.9个百分点,但花费几乎相当。
* 值得关注的是,qwen-plus-think-2025-07-28(67.5%,26元)和qwen-plus-think-2025-12-01(64.2%,27.1元)作为阿里的中端产品,在同等花费水平下与qwen3.5-plus存在较大差距。

新旧模型对比
* 代际升级成效显著:相比qwen3-max-think-2026-01-23(72.8%),qwen3.5-plus提升了1.8个百分点;相比更早的qwen3-max-2025-09-23(66.8%),差距更是拉大到7.8个百分点。
* 阿里产品线内部分化明显:在排行榜中,阿里系模型呈现明显的梯队分布——qwen3.5-plus(74.6%,第2位)领跑,qwen3-max-think-2026-01-23(72.8%,第4位)紧随其后,而qwen3-max-preview-think(68.2%,第26位)、qwen3-max-2026-01-23(67.6%,第30位)、qwen3-235b-a22b-thinking-2507(65.5%,第47位)则分布在中游偏下位置。
* 对比其他厂商的新模型:qwen3.5-plus(74.6%)超过了GLM-5(71.0%,第13位)、ERNIE-5.0(70.9%,第14位)、DeepSeek-V3.2-Think(70.9%,第15位)等近期发布的新模型,展现了较强的竞争力。但与榜首的Doubao-Seed-2.0-pro(76.5%)仍有约2个百分点的差距。

开源VS闭源对比
* 开源标杆地位:从总分来看,qwen3.5-plus标注为“开源”模型(基于Apache 2.0协议开放权重的Qwen3.5-397B-A17B),在开源模型中排名第1,超越了所有其他开源模型。
* 对比闭源模型:从总分看,qwen3.5-plus超过了多个闭源模型,包括Doubao-Seed-2.0-lite(73.9%,商用)、claude-opus-4.6(70.5%,商用)、gpt-5.1-high(69.7%,商用)等。

3、官方评测

根据Qwen官方博客(https://qwen.ai/blog?id=qwen3.5),Qwen3.5-397B-A17B 在多个关键维度与当前主流的闭源大模型进行了量化对比。测试广泛覆盖了指令遵循、复杂推理、智能体(Agentic)能力以及多模态理解等核心评测领域。具体数据分析如下:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

指令遵循与智能体能力
在基础交互与智能体应用层面,Qwen3.5-397B-A17B 表现出显著的优势与差异化特征:
* 指令遵循 (IFBench) 与智能体搜索 (BrowseComp): 该模型在这两项测试中均位列第一。其中,IFBench 得分为 76.5,略高于 GPT-5.2(75.4);BrowseComp 测试中则以 78.6 的得分大幅度领先于 Claude Opus 4.5(67.8)和 GPT-5.2(65.8)。
* 工具调用 (BFCL V4): 表现优异,得分为 72.9,在该任务中仅次于 Claude Opus 4.5(77.5),排名第二。
* 代码与终端操作: 在智能体代码编写 (SWE-bench Verified) 和终端代码操作 (Terminal-Bench 2) 中,得分分别为 76.4 和 52.5。相较而言,Claude Opus 4.5 和 GPT-5.2 在这两类复杂编程任务中保持了更为领先的地位。

学科知识与复杂推理
在考验模型知识广度与深度的传统文本测试基准中,各头部模型竞争激烈:
* 研究生级推理 (GPQA Diamond): GPT-5.2 以 92.4 的高分占据绝对优势。Qwen3.5-397B-A17B 测得 88.4 分,优于 Claude Opus 4.5(87.0),但落后于 GPT-5.2 与 Gemini 3 Pro(91.9)。
* 多语言综合知识 (MMMLU): 评测结果呈现高分密集分布,Gemini 3 Pro 以 90.6 位居榜首,Qwen3.5-397B-A17B 得分 88.5,模型间差距被控制在 2% 以内,表明其具备稳定的跨语言知识体系。

多模态与视觉理解

在包含视觉信息的评测任务中(官方图表引入了视觉特化模型 Qwen3-VL-235B-A22B 作为内部参考),Qwen3.5-397B-A17B 同样展现了极强的泛化能力:

  • 文档识别与理解 (OmniDocBench v1.5):取得 90.8 的最高分,超越了所有对比的闭源旗舰模型(第二名 Gemini 3 Pro 为 88.5)。
  • 视频推理 (Video-MME) 与具身推理 (ERQA):该模型分别斩获 87.5 和 67.5 的成绩,两项基准均稳居第二,仅次于 Gemini 3 Pro,且在 ERQA 中对 GPT-5.2(59.8)拉开了显著的分数优势。
  • 视觉推理综合评测 (MMMU-Pro):得分为 79.0,与 GPT-5.2(79.5)处于同一梯队。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22187

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • 构建可扩展、生产级的 Agentic RAG Pipeline:分层架构与六层核心设计详解

    面向大型数据集、符合行业标准的 Agentic RAG Pipeline 需要基于清晰、可扩展的分层架构进行构建。我们将系统结构化,使得 Agent 能够并行地进行推理、获取上下文、使用工具以及与数据库交互。每一层都承担明确的职责,涵盖从数据摄取、模型服务到 Agent 协调的全过程。这种分层方法有助于系统实现可预测的扩展,同时为终端用户保持较低的响应延迟。…

    2026年1月22日
    21000
  • Agent Skills 终极指南:从零到精通

    开篇思考 Claude Skills 的价值仍然被严重低估。 一个设计精良的 Skill,其所能赋予的智能能力足以媲美甚至超越一个完整的 AI 产品。最关键的是:任何人都可以开发自己的 Skill,无需任何技术背景。 以我开发的 Article-Copilot 为例,仅凭一个 Skill,我便构建了一个能够处理从素材整理到实际写作全流程的 Agent 应用。…

    2026年2月4日
    17600
  • Claude Task Viewer:实时可视化Claude Code任务执行过程的智能看板

    当Claude Code将复杂工作拆分为多个任务时,其思考过程在终端中往往显得零散。现在,一个工具将这些碎片拼接成了一幅完整的画面。 Claude Task Viewer 会在本地 3456 端口启动一个实时看板,并自动扫描 ~/.claude/tasks/ 目录下的所有会话。每个任务卡片会清晰展示当前状态、依赖关系,甚至 Claude 正在执行的具体操作。…

    3天前
    5800
  • DeepMind革命性突破:用AlphaEvolve在无限函数空间挖掘下一代激活函数,超越ReLU与GELU

    一直以来,神经网络的激活函数如同AI引擎中的火花塞。从早期的Sigmoid、Tanh,到后来占据主导地位的ReLU,再到近年来的GELU与Swish,每一次激活函数的演进都推动了模型性能的进步。然而,寻找最优激活函数的过程,长期依赖于人类直觉或有限的搜索空间。 如今,谷歌DeepMind正在改写这一规则。 在一篇题为《Finding Generalizabl…

    2026年2月7日
    6700
  • GraphRAG深度解析:融合Neo4j与LangChain,构建下一代知识增强型LLM系统

    LLM 已从根本上改变了我们与数据交互、自动化推理以及构建智能系统的方式。然而,尽管其生成式能力令人印象深刻,LLM 天生并不理解关系、结构或长期的事实一致性。这一缺陷在我们尝试将 LLM 用于企业级知识系统、多跳推理或决策关键型应用时尤为明显。 这正是图数据库与 RAG 结合之处,二者共同为 AI 系统形成一种新的架构范式——将符号推理与神经生成相融合。 …

    2025年12月27日
    14900