通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

短的结论:开源战神部队的排头兵

基本情况:

Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。

其单位Token的推理性能也达到了前所未有的优秀水平。要知道,Qwen前代所有推理模型的平均Token消耗均不低于20K,Qwen3-Next更是创下34K的纪录。而Qwen3.5-Plus 则成功摘掉了“Token粉碎机”的帽子,平均19K的消耗堪称优秀,目前仅有Gemini 3 Pro能在性能更强的同时拥有更低的Token消耗。

还需考虑到阿里云百炼平台的差异化定价策略:拥有更高上下文长度的Plus版本,其调用成本反而比开源的397B版本低一大截,这使其成为当前国产大模型中罕见的性价比之王。恐怕只有“性价比仙人”DeepSeek出手,才有可能撼动Qwen3.5的王座。

逻辑成绩:

通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式,参见:大语言模型-逻辑能力横评 26-01 月榜。本次新增#56,#57,#58,#59题。
注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/
注4:红字模型代表工作在推理模式下(慢思考),黑色模型则为对应的非推理模式(快思考)。

本次测试新增了2月的4道新题,因此各模型分数均有所变化。下文将重点对比Qwen3.5-Plus(百炼平台部署的397B版本)与自家上一代Qwen3-Max的差异。默认讨论为推理模式非推理模式会另有标注。

改进:

  • 推理效率:如前所述,Qwen3.5-Plus的Token消耗取得了巨大进步。在绝大多数类型的问题上,其Token消耗均显著低于上代Max,长链推理问题上的提升尤为显著。上代Max的思维链常包含大量冗余过程和反复确认,效率较低;而Qwen3.5-Plus则显得干净利落,逻辑规整、结构清晰,并大量采用独创的思维链缩写规则,使得思考过程几乎只包含必要信息。在一些中等难度问题上,Plus的消耗甚至能低至上代Max的17%。仅在少数归纳类问题上,Plus消耗略高,但仍在正常范围。此外,Qwen3.5-Plus这一代的思维链已全部转为英文,不再像前代那样中英混杂。不过,其非推理模式则火候不足,推理消耗高于上代Max,输出内容混杂难读,若不显式要求输出格式,结论可能混杂在大段文本中,且有很大概率直接输出英文。
  • 复杂推理:在复杂多步骤的推理问题上,Qwen3.5-Plus的极限性能不逊于上代Max。对于解空间较大的问题,上代Max容易触及Token上限,思考越久反而越难收敛;这一代基本解决了“过度思考”问题,反而能更有效地探索全部解空间。但也存在不够稳定的情况,最坏表现与上代235B相差不大。
  • 规律洞察:上代Max在寻找规律、数据洞察类问题上的表现略低于第一梯队的其他模型,这与整个Qwen3代模型偏好“暴力求解”的风格有关。Qwen3.5-Plus则展现出更好的求解方法论,虽然也会使用穷举,但能快速排除错误分支,最终将答案有效收敛到较小范围。尽管无法满分,但方法论是可取的,与世界头部模型的主要差距在于泛化性不足。
  • 幻觉抑制:上代Max在上下文幻觉抑制方面已有巨大改善,Qwen3.5-Plus基本保持同等水平。在仅需简单文本信息提取的场景下,Plus的精度和稳定性更好。但在需要“动脑”决定信息去留的复杂场景中,Plus的不稳定性大增,下限较低。受此影响,在一些过程较长的计算类问题中,也可能出现记错数字导致的计算错误。

不足:

  • 字符处理:在所有需要逐字符解析和处理的问题上,Qwen3.5-Plus的表现均逊于上代Max。不过上代Max也未能稳定解决此类问题,Plus的表现可视为一种“均值回归”,整体与上代235B相差不大。
  • 指令遵循:综合来看,上代Max在简单指令遵循上表现更稳定、精确。Qwen3.5-Plus有时会“聪明反被聪明误”,有自己的想法,反而不太能严格遵循所有要求。其最好情况可与Max持平,最坏情况则接近不可用。

总结:

从Qwen3最初发布至今已有9个月,其验证模型亮相也有5个月。对于算力充足的团队而言,5个月足以进行突破性探索。在Qwen3.5-Plus身上,我们看到了通义团队在着力解决上一代的遗留问题——如数据质量、推理低效、实用性和多模态融合等——并且解决得相当不错。这对开源社区无疑是一个振奋人心的消息,必将大幅提升2026年大模型的基础水准。

然而,究竟是什么魔力,驱使通义团队宁愿顶着除夕夜巨大的社媒流量和用户关注度“减益”也要发布新一代模型?或许是因为时间表紧张,手中待发布的新模型已多到“溢出”,这个397B尺寸的“中杯”模型只是打前站的排头兵,后面还有当量更高的“核弹”蓄势待发。若果真如此,那确实值得期待。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21828

(0)
上一篇 22小时前
下一篇 15小时前

相关推荐