通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

短的结论:开源战神部队的排头兵

基本情况:

Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。

其单位Token的推理性能也达到了前所未有的优秀水平。要知道,Qwen前代所有推理模型的平均Token消耗均不低于20K,Qwen3-Next更是创下34K的纪录。而Qwen3.5-Plus 则成功摘掉了“Token粉碎机”的帽子,平均19K的消耗堪称优秀,目前仅有Gemini 3 Pro能在性能更强的同时拥有更低的Token消耗。

还需考虑到阿里云百炼平台的差异化定价策略:拥有更高上下文长度的Plus版本,其调用成本反而比开源的397B版本低一大截,这使其成为当前国产大模型中罕见的性价比之王。恐怕只有“性价比仙人”DeepSeek出手,才有可能撼动Qwen3.5的王座。

逻辑成绩:

通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式,参见:大语言模型-逻辑能力横评 26-01 月榜。本次新增#56,#57,#58,#59题。
注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/
注4:红字模型代表工作在推理模式下(慢思考),黑色模型则为对应的非推理模式(快思考)。

本次测试新增了2月的4道新题,因此各模型分数均有所变化。下文将重点对比Qwen3.5-Plus(百炼平台部署的397B版本)与自家上一代Qwen3-Max的差异。默认讨论为推理模式非推理模式会另有标注。

改进:

  • 推理效率:如前所述,Qwen3.5-Plus的Token消耗取得了巨大进步。在绝大多数类型的问题上,其Token消耗均显著低于上代Max,长链推理问题上的提升尤为显著。上代Max的思维链常包含大量冗余过程和反复确认,效率较低;而Qwen3.5-Plus则显得干净利落,逻辑规整、结构清晰,并大量采用独创的思维链缩写规则,使得思考过程几乎只包含必要信息。在一些中等难度问题上,Plus的消耗甚至能低至上代Max的17%。仅在少数归纳类问题上,Plus消耗略高,但仍在正常范围。此外,Qwen3.5-Plus这一代的思维链已全部转为英文,不再像前代那样中英混杂。不过,其非推理模式则火候不足,推理消耗高于上代Max,输出内容混杂难读,若不显式要求输出格式,结论可能混杂在大段文本中,且有很大概率直接输出英文。
  • 复杂推理:在复杂多步骤的推理问题上,Qwen3.5-Plus的极限性能不逊于上代Max。对于解空间较大的问题,上代Max容易触及Token上限,思考越久反而越难收敛;这一代基本解决了“过度思考”问题,反而能更有效地探索全部解空间。但也存在不够稳定的情况,最坏表现与上代235B相差不大。
  • 规律洞察:上代Max在寻找规律、数据洞察类问题上的表现略低于第一梯队的其他模型,这与整个Qwen3代模型偏好“暴力求解”的风格有关。Qwen3.5-Plus则展现出更好的求解方法论,虽然也会使用穷举,但能快速排除错误分支,最终将答案有效收敛到较小范围。尽管无法满分,但方法论是可取的,与世界头部模型的主要差距在于泛化性不足。
  • 幻觉抑制:上代Max在上下文幻觉抑制方面已有巨大改善,Qwen3.5-Plus基本保持同等水平。在仅需简单文本信息提取的场景下,Plus的精度和稳定性更好。但在需要“动脑”决定信息去留的复杂场景中,Plus的不稳定性大增,下限较低。受此影响,在一些过程较长的计算类问题中,也可能出现记错数字导致的计算错误。

不足:

  • 字符处理:在所有需要逐字符解析和处理的问题上,Qwen3.5-Plus的表现均逊于上代Max。不过上代Max也未能稳定解决此类问题,Plus的表现可视为一种“均值回归”,整体与上代235B相差不大。
  • 指令遵循:综合来看,上代Max在简单指令遵循上表现更稳定、精确。Qwen3.5-Plus有时会“聪明反被聪明误”,有自己的想法,反而不太能严格遵循所有要求。其最好情况可与Max持平,最坏情况则接近不可用。

总结:

从Qwen3最初发布至今已有9个月,其验证模型亮相也有5个月。对于算力充足的团队而言,5个月足以进行突破性探索。在Qwen3.5-Plus身上,我们看到了通义团队在着力解决上一代的遗留问题——如数据质量、推理低效、实用性和多模态融合等——并且解决得相当不错。这对开源社区无疑是一个振奋人心的消息,必将大幅提升2026年大模型的基础水准。

然而,究竟是什么魔力,驱使通义团队宁愿顶着除夕夜巨大的社媒流量和用户关注度“减益”也要发布新一代模型?或许是因为时间表紧张,手中待发布的新模型已多到“溢出”,这个397B尺寸的“中杯”模型只是打前站的排头兵,后面还有当量更高的“核弹”蓄势待发。若果真如此,那确实值得期待。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21828

(0)
上一篇 2026年2月18日 上午7:04
下一篇 2026年2月18日 下午2:46

相关推荐

  • Orchestrator-8B:以强化学习驱动的智能体编排新范式,实现成本、效率与准确性的三重突破

    在人工智能领域,面对日益复杂的任务需求,单纯依赖规模更大的模型往往陷入成本高昂、响应迟缓的困境。最近,英伟达与香港大学的研究团队提出了一种创新的解决方案——Orchestrator-8B,它通过一个仅80亿参数的小型模型作为“指挥家”,动态协调代码解释器、网络搜索、数学模型乃至更强大的大模型等多样化工具,形成高效的多智能体协作系统。这一范式不仅显著提升了任务…

    2025年12月7日
    17600
  • AI驱动数学革命:陶哲轩团队48小时攻克尘封半世纪的Erdős #1026难题

    近日,数学界迎来里程碑式突破——由菲尔兹奖得主陶哲轩领衔的多国数学家团队,在人工智能工具的辅助下,仅用48小时便完全解决了困扰学界长达50年的Erdős #1026组合数学难题。这一突破不仅标志着数学研究范式的深刻变革,更揭示了“人机协同”在攻克复杂科学问题中的巨大潜力。 Erdős #1026问题源于1975年,其核心在于探索实数序列中单调子序列权重的下界…

    2025年12月13日
    15800
  • AI智能体重塑学术评审:从审稿辅助到研究范式变革的深度剖析

    在人工智能技术飞速发展的当下,学术论文评审体系正面临前所未有的挑战与机遇。随着全球顶级学术会议如ICLR、CVPR等陆续出台关于大模型使用的审稿规范,AI在学术评审中的角色已从理论探讨进入实践应用阶段。然而,规范与现实之间存在着显著差距——即使在ICLR 2026这样实施“最严管控规则”的会议上,仍有高达五分之一的审稿意见被证实由大模型一键生成。这一现象不仅…

    2025年11月25日
    15700
  • 智谱GLM-4.7登顶开源模型榜首,以511亿港元市值冲刺“全球大模型第一股”

    “全球大模型第一股”即将登陆港股!北京智谱华章科技股份有限公司(下称“智谱”)今起招股,预计2026年1月5日结束,并计划于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市。 全球公开发售文件显示,智谱(02513.HK)计划在本次IPO中发行3741.95万股H股。其中,香港公开发售187.1万股H股,国际发售3554.85万股H股。以每…

    2025年12月30日
    24200
  • OpenAI核心工程师翁家翌深度揭秘:ChatGPT是意外引爆,Infra修Bug速度决定模型公司生死线

    “ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。 而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL T…

    2026年1月23日
    24500