通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

短的结论:开源战神部队的排头兵

基本情况:

Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。

其单位Token的推理性能也达到了前所未有的优秀水平。要知道,Qwen前代所有推理模型的平均Token消耗均不低于20K,Qwen3-Next更是创下34K的纪录。而Qwen3.5-Plus 则成功摘掉了“Token粉碎机”的帽子,平均19K的消耗堪称优秀,目前仅有Gemini 3 Pro能在性能更强的同时拥有更低的Token消耗。

还需考虑到阿里云百炼平台的差异化定价策略:拥有更高上下文长度的Plus版本,其调用成本反而比开源的397B版本低一大截,这使其成为当前国产大模型中罕见的性价比之王。恐怕只有“性价比仙人”DeepSeek出手,才有可能撼动Qwen3.5的王座。

逻辑成绩:

通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式,参见:大语言模型-逻辑能力横评 26-01 月榜。本次新增#56,#57,#58,#59题。
注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/
注4:红字模型代表工作在推理模式下(慢思考),黑色模型则为对应的非推理模式(快思考)。

本次测试新增了2月的4道新题,因此各模型分数均有所变化。下文将重点对比Qwen3.5-Plus(百炼平台部署的397B版本)与自家上一代Qwen3-Max的差异。默认讨论为推理模式非推理模式会另有标注。

改进:

  • 推理效率:如前所述,Qwen3.5-Plus的Token消耗取得了巨大进步。在绝大多数类型的问题上,其Token消耗均显著低于上代Max,长链推理问题上的提升尤为显著。上代Max的思维链常包含大量冗余过程和反复确认,效率较低;而Qwen3.5-Plus则显得干净利落,逻辑规整、结构清晰,并大量采用独创的思维链缩写规则,使得思考过程几乎只包含必要信息。在一些中等难度问题上,Plus的消耗甚至能低至上代Max的17%。仅在少数归纳类问题上,Plus消耗略高,但仍在正常范围。此外,Qwen3.5-Plus这一代的思维链已全部转为英文,不再像前代那样中英混杂。不过,其非推理模式则火候不足,推理消耗高于上代Max,输出内容混杂难读,若不显式要求输出格式,结论可能混杂在大段文本中,且有很大概率直接输出英文。
  • 复杂推理:在复杂多步骤的推理问题上,Qwen3.5-Plus的极限性能不逊于上代Max。对于解空间较大的问题,上代Max容易触及Token上限,思考越久反而越难收敛;这一代基本解决了“过度思考”问题,反而能更有效地探索全部解空间。但也存在不够稳定的情况,最坏表现与上代235B相差不大。
  • 规律洞察:上代Max在寻找规律、数据洞察类问题上的表现略低于第一梯队的其他模型,这与整个Qwen3代模型偏好“暴力求解”的风格有关。Qwen3.5-Plus则展现出更好的求解方法论,虽然也会使用穷举,但能快速排除错误分支,最终将答案有效收敛到较小范围。尽管无法满分,但方法论是可取的,与世界头部模型的主要差距在于泛化性不足。
  • 幻觉抑制:上代Max在上下文幻觉抑制方面已有巨大改善,Qwen3.5-Plus基本保持同等水平。在仅需简单文本信息提取的场景下,Plus的精度和稳定性更好。但在需要“动脑”决定信息去留的复杂场景中,Plus的不稳定性大增,下限较低。受此影响,在一些过程较长的计算类问题中,也可能出现记错数字导致的计算错误。

不足:

  • 字符处理:在所有需要逐字符解析和处理的问题上,Qwen3.5-Plus的表现均逊于上代Max。不过上代Max也未能稳定解决此类问题,Plus的表现可视为一种“均值回归”,整体与上代235B相差不大。
  • 指令遵循:综合来看,上代Max在简单指令遵循上表现更稳定、精确。Qwen3.5-Plus有时会“聪明反被聪明误”,有自己的想法,反而不太能严格遵循所有要求。其最好情况可与Max持平,最坏情况则接近不可用。

总结:

从Qwen3最初发布至今已有9个月,其验证模型亮相也有5个月。对于算力充足的团队而言,5个月足以进行突破性探索。在Qwen3.5-Plus身上,我们看到了通义团队在着力解决上一代的遗留问题——如数据质量、推理低效、实用性和多模态融合等——并且解决得相当不错。这对开源社区无疑是一个振奋人心的消息,必将大幅提升2026年大模型的基础水准。

然而,究竟是什么魔力,驱使通义团队宁愿顶着除夕夜巨大的社媒流量和用户关注度“减益”也要发布新一代模型?或许是因为时间表紧张,手中待发布的新模型已多到“溢出”,这个397B尺寸的“中杯”模型只是打前站的排头兵,后面还有当量更高的“核弹”蓄势待发。若果真如此,那确实值得期待。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21828

(0)
上一篇 2026年2月18日 上午7:04
下一篇 2026年2月18日 下午2:46

相关推荐

  • NVIDIA ComputeEval:从基准建立到难度升级,全面评估 LLMs 的 CUDA 代码生成能力

    关键词:CUDA 代码生成 、NVIDIA、CUDA 代码数据集 、AI 辅助编程 大语言模型(LLMs)正深刻改变开发者的编码方式——无论是资深工程师还是入门开发者,如今的顶尖模型已能流畅生成 Python 脚本、React 网站代码等。 代码:https://github.com/nvidia/compute-eval 数据:https://huggin…

    2025年12月21日
    29300
  • 智谱GLM-4.7登顶开源模型榜首,以511亿港元市值冲刺“全球大模型第一股”

    “全球大模型第一股”即将登陆港股!北京智谱华章科技股份有限公司(下称“智谱”)今起招股,预计2026年1月5日结束,并计划于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市。 全球公开发售文件显示,智谱(02513.HK)计划在本次IPO中发行3741.95万股H股。其中,香港公开发售187.1万股H股,国际发售3554.85万股H股。以每…

    2025年12月30日
    32400
  • 从零构建高级AI Agent:Python实战指南与架构设计解析

    如果你问我2026年学习AI Agent的最佳方式是什么,我会说:绝对是从零自己动手构建。这不仅对学习至关重要,如果你要打造一个高效、个性化且健壮的生产级AI Agent,从零开始往往是最佳选择。例如,你能找到的所有代码生成Agent(如Claude Code、Codex、Cursor等),都是基于其产品需求定制架构构建的。 当然,这并非否定现有框架的价值。…

    2026年2月1日
    40500
  • Canvas-to-Image:统一画布框架如何重塑组合式图像生成范式

    在人工智能驱动的图像生成领域,控制性与创造性之间的平衡一直是核心挑战。传统方法通常采用分散式控制架构,将身份参考、空间布局、姿态线稿等不同类型的控制信息通过独立通道输入模型,导致创作流程割裂且效率低下。Canvas-to-Image框架的出现,标志着组合式图像生成技术迈入了一个全新的阶段——它通过统一画布设计,将异构控制信号整合到同一像素空间,实现了从多入口…

    2025年12月9日
    28200
  • AGI的物理边界:两位专家激辩人工智能的终极天花板

    大模型的通用性和泛化能力正变得越来越强。 尽管一些新模型,例如在专业任务和智能水平上已达到出色水准的GPT-5.2,距离我们认知中的通用人工智能(AGI)仍然十分遥远。 然而,这也反映出人们对AGI依然抱有巨大的热情和信心,或许下一款重磅模型就能初步实现AGI的构想。 不过,近期卡耐基梅隆大学教授、AI2研究科学家Tim Dettmers发表了一篇题为《Wh…

    2025年12月21日
    28800