阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达3970亿,每次前向传播仅激活170亿参数。Qwen3.5-Plus为该模型的API版本。

我们对Qwen3.5-Plus进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

Qwen3.5-Plus版本表现:
* 测试题数:约1.5万
* 总分(准确率):74.6%
* 平均耗时(每次调用):57s
* 平均token(每次调用消耗的token):4975
* 平均花费(每千次调用的人民币花费):22.9

1、新旧版本对比

首先对比版本(qwen3-max-think-2026-01-23),数据如下:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位:元/百万token

  • 整体性能显著提升:新版本准确率从72.8%提升至74.6%,提升了1.8个百分点,排名从第4位升至第2位,仅次于Doubao-Seed-2.0-pro。
  • 教育领域大幅跃升:从细分来看,“教育”领域提升显著,从54.4%大幅跃升至60.9%,增幅达6.5个百分点,表明新模型在教育场景下的知识覆盖和推理能力有了质的改善。
  • 推理与数学计算稳步提升:“推理与数学计算能力”从79.9%提升至80.4%(+0.5%),保持了较高水准。
  • Agent与工具调用能力显著增强:“agent与工具调用”从68.6%提升至73.7%,增幅达5.1个百分点,这与Qwen3.5主打的“原生智能体时代”定位高度吻合。
  • 部分领域存在权衡:值得注意的是,“医疗与心理健康”略有下降(84.3% vs 84.8%,差距不大),“金融”领域从85.6%降至83.4%(-2.2%),模型在能力调整过程中存在一定的取舍。
  • 速度大幅提升但Token消耗增加:平均耗时从214s大幅缩短至57s,提速约73%,用户体验显著改善。但平均Token消耗从4540增加至4975(+9.6%),反映出新架构在推理效率上的不同策略。
  • 成本显著下降:每千次调用的费用从43.5元降至22.9元,成本下降约47%,结合输出价格从10.0元/M token降至4.8元/M token,实现了性能提升与成本优化的双赢。

2、对比其他模型

在当前主流大模型竞争格局中,qwen3.5-plus表现如何?我们选择了具有代表性的模型进行横向对比分析:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

数据来源:非线智能ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 在花费20-25元/千次的区间内,qwen3.5-plus以74.6%的准确率和22.9元的花费,位列该档位的领先位置。同档位的Doubao-Seed-2.0-pro以76.5%的准确率和22.5元的花费位居榜首,两者差距仅1.9个百分点,但花费几乎相当。
* 值得关注的是,qwen-plus-think-2025-07-28(67.5%,26元)和qwen-plus-think-2025-12-01(64.2%,27.1元)作为阿里的中端产品,在同等花费水平下与qwen3.5-plus存在较大差距。

新旧模型对比
* 代际升级成效显著:相比qwen3-max-think-2026-01-23(72.8%),qwen3.5-plus提升了1.8个百分点;相比更早的qwen3-max-2025-09-23(66.8%),差距更是拉大到7.8个百分点。
* 阿里产品线内部分化明显:在排行榜中,阿里系模型呈现明显的梯队分布——qwen3.5-plus(74.6%,第2位)领跑,qwen3-max-think-2026-01-23(72.8%,第4位)紧随其后,而qwen3-max-preview-think(68.2%,第26位)、qwen3-max-2026-01-23(67.6%,第30位)、qwen3-235b-a22b-thinking-2507(65.5%,第47位)则分布在中游偏下位置。
* 对比其他厂商的新模型:qwen3.5-plus(74.6%)超过了GLM-5(71.0%,第13位)、ERNIE-5.0(70.9%,第14位)、DeepSeek-V3.2-Think(70.9%,第15位)等近期发布的新模型,展现了较强的竞争力。但与榜首的Doubao-Seed-2.0-pro(76.5%)仍有约2个百分点的差距。

开源VS闭源对比
* 开源标杆地位:从总分来看,qwen3.5-plus标注为“开源”模型(基于Apache 2.0协议开放权重的Qwen3.5-397B-A17B),在开源模型中排名第1,超越了所有其他开源模型。
* 对比闭源模型:从总分看,qwen3.5-plus超过了多个闭源模型,包括Doubao-Seed-2.0-lite(73.9%,商用)、claude-opus-4.6(70.5%,商用)、gpt-5.1-high(69.7%,商用)等。

3、官方评测

根据Qwen官方博客(https://qwen.ai/blog?id=qwen3.5),Qwen3.5-397B-A17B 在多个关键维度与当前主流的闭源大模型进行了量化对比。测试广泛覆盖了指令遵循、复杂推理、智能体(Agentic)能力以及多模态理解等核心评测领域。具体数据分析如下:

阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%

指令遵循与智能体能力
在基础交互与智能体应用层面,Qwen3.5-397B-A17B 表现出显著的优势与差异化特征:
* 指令遵循 (IFBench) 与智能体搜索 (BrowseComp): 该模型在这两项测试中均位列第一。其中,IFBench 得分为 76.5,略高于 GPT-5.2(75.4);BrowseComp 测试中则以 78.6 的得分大幅度领先于 Claude Opus 4.5(67.8)和 GPT-5.2(65.8)。
* 工具调用 (BFCL V4): 表现优异,得分为 72.9,在该任务中仅次于 Claude Opus 4.5(77.5),排名第二。
* 代码与终端操作: 在智能体代码编写 (SWE-bench Verified) 和终端代码操作 (Terminal-Bench 2) 中,得分分别为 76.4 和 52.5。相较而言,Claude Opus 4.5 和 GPT-5.2 在这两类复杂编程任务中保持了更为领先的地位。

学科知识与复杂推理
在考验模型知识广度与深度的传统文本测试基准中,各头部模型竞争激烈:
* 研究生级推理 (GPQA Diamond): GPT-5.2 以 92.4 的高分占据绝对优势。Qwen3.5-397B-A17B 测得 88.4 分,优于 Claude Opus 4.5(87.0),但落后于 GPT-5.2 与 Gemini 3 Pro(91.9)。
* 多语言综合知识 (MMMLU): 评测结果呈现高分密集分布,Gemini 3 Pro 以 90.6 位居榜首,Qwen3.5-397B-A17B 得分 88.5,模型间差距被控制在 2% 以内,表明其具备稳定的跨语言知识体系。

多模态与视觉理解

在包含视觉信息的评测任务中(官方图表引入了视觉特化模型 Qwen3-VL-235B-A22B 作为内部参考),Qwen3.5-397B-A17B 同样展现了极强的泛化能力:

  • 文档识别与理解 (OmniDocBench v1.5):取得 90.8 的最高分,超越了所有对比的闭源旗舰模型(第二名 Gemini 3 Pro 为 88.5)。
  • 视频推理 (Video-MME) 与具身推理 (ERQA):该模型分别斩获 87.5 和 67.5 的成绩,两项基准均稳居第二,仅次于 Gemini 3 Pro,且在 ERQA 中对 GPT-5.2(59.8)拉开了显著的分数优势。
  • 视觉推理综合评测 (MMMU-Pro):得分为 79.0,与 GPT-5.2(79.5)处于同一梯队。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/22187

(0)
上一篇 2026年2月21日 下午12:02
下一篇 2026年2月21日 下午1:29

相关推荐

  • 华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%

    「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」 开源完整自动化数据构建算法 构建 1655 个高可靠 CLI 任务环境镜像 通过 291 条轨迹数据带来 20% 解决率提升 在 Agentic Coding 领域,基于 SWE-bench 的数据管线研究已取得长足进展。过去一年中,业界涌现了大量相关工作,例如 …

    2026年2月25日
    9600
  • 劈开教育“不可能三角”:揭秘AI名师如何实现千人千面个性化教学

    教育领域正迎来一个AI应用新物种—— 其讲课节奏、语气与互动,都展现出高度的自然感。 更重要的是,它不仅能“像老师一样讲课”,还能为每一位学员提供一对一的个性化教学。 这位AI导师,出自一家名为“与爱为舞”的AI原生应用企业。自年初上线以来,已累计为百万级用户提供学习陪伴与一对一讲解服务。 教育行业,向来是一个“规模、质量、成本”的不可能三角。 既要实现千人…

    2025年12月30日
    19400
  • Context Engineering:2026年真正重要的6种技术(完整指南)

    Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。 你的 RAG 系统返回了完美的文档片段,你的提示词也打磨得无可挑剔,但大语言模型(LLM)依然在“幻觉”中编造答案。 例如,当你查询最新的退款政策时,系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策,陷入混乱…

    6天前
    16800
  • 构建实时语音驱动RAG系统:从架构设计到生产部署的全栈指南

    多数团队都在谈论构建对话代理,但真正将其打磨到可用于生产环境却充满挑战。语音系统尤为严苛:延迟会立刻显现,检索失误会破坏信任,而语音、语言与响应之间的任何断层,都会让用户体验大打折扣。本文将带你构建一个“声音原生”的对话代理,实现端到端自然流畅的交互。你将了解语音如何在实时流程中依次经过转写、推理、检索与合成,以及各层如何协同工作以保持体验的连贯性。阅读本部…

    2025年12月30日
    18100
  • Prompt与Context工程实战:解锁LLM高效沟通的核心技艺

    如果你一直在关注《Master LLMs》系列,那么你已经走过了从建立直觉到理解机制,再到学习关键原则的旅程。现在,我们将转向动手实践,聚焦于构建AI应用时,如何与大型语言模型(LLM)进行高效沟通的核心技艺。 许多人在使用LLM时并未意识到一个关键点: 模型非常聪明,但也非常“按字面理解”。 与LLM的沟通,并非像与人交谈那样简单。它既比想象中更直接,也比…

    2025年11月29日
    15600