通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

短的结论:开源战神部队的排头兵

基本情况:

Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。

其单位Token的推理性能也达到了前所未有的优秀水平。要知道,Qwen前代所有推理模型的平均Token消耗均不低于20K,Qwen3-Next更是创下34K的纪录。而Qwen3.5-Plus 则成功摘掉了“Token粉碎机”的帽子,平均19K的消耗堪称优秀,目前仅有Gemini 3 Pro能在性能更强的同时拥有更低的Token消耗。

还需考虑到阿里云百炼平台的差异化定价策略:拥有更高上下文长度的Plus版本,其调用成本反而比开源的397B版本低一大截,这使其成为当前国产大模型中罕见的性价比之王。恐怕只有“性价比仙人”DeepSeek出手,才有可能撼动Qwen3.5的王座。

逻辑成绩:

通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式,参见:大语言模型-逻辑能力横评 26-01 月榜。本次新增#56,#57,#58,#59题。
注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/
注4:红字模型代表工作在推理模式下(慢思考),黑色模型则为对应的非推理模式(快思考)。

本次测试新增了2月的4道新题,因此各模型分数均有所变化。下文将重点对比Qwen3.5-Plus(百炼平台部署的397B版本)与自家上一代Qwen3-Max的差异。默认讨论为推理模式非推理模式会另有标注。

改进:

  • 推理效率:如前所述,Qwen3.5-Plus的Token消耗取得了巨大进步。在绝大多数类型的问题上,其Token消耗均显著低于上代Max,长链推理问题上的提升尤为显著。上代Max的思维链常包含大量冗余过程和反复确认,效率较低;而Qwen3.5-Plus则显得干净利落,逻辑规整、结构清晰,并大量采用独创的思维链缩写规则,使得思考过程几乎只包含必要信息。在一些中等难度问题上,Plus的消耗甚至能低至上代Max的17%。仅在少数归纳类问题上,Plus消耗略高,但仍在正常范围。此外,Qwen3.5-Plus这一代的思维链已全部转为英文,不再像前代那样中英混杂。不过,其非推理模式则火候不足,推理消耗高于上代Max,输出内容混杂难读,若不显式要求输出格式,结论可能混杂在大段文本中,且有很大概率直接输出英文。
  • 复杂推理:在复杂多步骤的推理问题上,Qwen3.5-Plus的极限性能不逊于上代Max。对于解空间较大的问题,上代Max容易触及Token上限,思考越久反而越难收敛;这一代基本解决了“过度思考”问题,反而能更有效地探索全部解空间。但也存在不够稳定的情况,最坏表现与上代235B相差不大。
  • 规律洞察:上代Max在寻找规律、数据洞察类问题上的表现略低于第一梯队的其他模型,这与整个Qwen3代模型偏好“暴力求解”的风格有关。Qwen3.5-Plus则展现出更好的求解方法论,虽然也会使用穷举,但能快速排除错误分支,最终将答案有效收敛到较小范围。尽管无法满分,但方法论是可取的,与世界头部模型的主要差距在于泛化性不足。
  • 幻觉抑制:上代Max在上下文幻觉抑制方面已有巨大改善,Qwen3.5-Plus基本保持同等水平。在仅需简单文本信息提取的场景下,Plus的精度和稳定性更好。但在需要“动脑”决定信息去留的复杂场景中,Plus的不稳定性大增,下限较低。受此影响,在一些过程较长的计算类问题中,也可能出现记错数字导致的计算错误。

不足:

  • 字符处理:在所有需要逐字符解析和处理的问题上,Qwen3.5-Plus的表现均逊于上代Max。不过上代Max也未能稳定解决此类问题,Plus的表现可视为一种“均值回归”,整体与上代235B相差不大。
  • 指令遵循:综合来看,上代Max在简单指令遵循上表现更稳定、精确。Qwen3.5-Plus有时会“聪明反被聪明误”,有自己的想法,反而不太能严格遵循所有要求。其最好情况可与Max持平,最坏情况则接近不可用。

总结:

从Qwen3最初发布至今已有9个月,其验证模型亮相也有5个月。对于算力充足的团队而言,5个月足以进行突破性探索。在Qwen3.5-Plus身上,我们看到了通义团队在着力解决上一代的遗留问题——如数据质量、推理低效、实用性和多模态融合等——并且解决得相当不错。这对开源社区无疑是一个振奋人心的消息,必将大幅提升2026年大模型的基础水准。

然而,究竟是什么魔力,驱使通义团队宁愿顶着除夕夜巨大的社媒流量和用户关注度“减益”也要发布新一代模型?或许是因为时间表紧张,手中待发布的新模型已多到“溢出”,这个397B尺寸的“中杯”模型只是打前站的排头兵,后面还有当量更高的“核弹”蓄势待发。若果真如此,那确实值得期待。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21828

(0)
上一篇 2026年2月18日 上午7:04
下一篇 2026年2月18日 下午2:46

相关推荐

  • ChatGPT千亿tokens,干掉麦肯锡5000名顾问

    魔幻啊魔幻。 全球顶级咨询公司麦肯锡,居然收到了OpenAI最近给Tokens消耗大客户颁发的奖牌。 麦肯锡自己还怪自豪的,第一时间就把奖牌po到了领英上。 等等,好像哪里不对……但凡过遍脑子,都能察觉出“这份荣耀”有点不对味—— 你花百万美金买PPT的麦肯锡,竟然是ChatGPT的大客户?! 这大概也意味着,很多机构花了数百万美元购买的战略咨询PPT,其实…

    2025年10月22日
    49800
  • VinciCoder:视觉强化学习突破多模态代码生成瓶颈,开启统一框架新纪元

    长期以来,多模态代码生成领域的发展始终受限于传统监督微调(SFT)范式的固有缺陷。尽管SFT在Chart-to-code等特定任务上取得了显著成果,但其“狭隘的训练范围”从根本上制约了模型的泛化能力,阻碍了通用视觉代码智能的演进。更为关键的是,纯SFT范式在确保代码可执行性和高视觉保真度方面存在结构性瓶颈——模型在训练过程中完全无法感知代码的渲染效果,导致“…

    2025年11月17日
    35500
  • 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

    GLM-OCR 模型评测:0.9B 参数下的文本识别与表格解析实战 OCR(光学字符识别)技术正持续演进。近期,智谱 AI 开源了其轻量级模型「GLM-OCR」,尽管参数量仅为 0.9B,但据称在 OmniDocBench V1.5 等基准测试中表现不俗,尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。 官方数据显示,该模型在多类文档的识别任…

    2026年2月11日
    1.2K00
  • 华为openPangu-R-7B-Diffusion:扩散语言模型突破32K长文本瓶颈,开启“慢思考”推理新范式

    在人工智能技术快速演进的浪潮中,文本生成领域正经历着从自回归模型到扩散语言模型(Diffusion Language Models)的深刻范式转变。这一转变不仅代表着技术路径的革新,更预示着语言模型在处理复杂认知任务时的能力边界将被重新定义。然而,扩散模型在长序列训练中的不稳定性问题,尤其是上下文窗口的限制,一直是制约其在数学推理、编程任务等需要深度“慢思考…

    2025年12月2日
    40900
  • 中国AI突破300年数学难题:强化学习系统PackingStar刷新高维亲吻数多项世界纪录

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 数学上有一个经典难题,名为亲吻数问题(Kissing Number Problem)。它困扰了人类三百余年,而最近,一项来自中国AI的研究,为这一领域带来了突破性进展。 这个问题探讨的是:在n维空间中,一个单位球体的周围,最多能有多少个同样大小的球体与它恰好相切(即“亲吻”),且彼此互不重叠。 亲吻数问题…

    2026年2月14日
    36600