通义Qwen3.5-Plus深度测评：开源战神部队的排头兵，推理效率与性价比双突破

2026年2月18日上午8:30 • AI产业动态 • 阅读 660

短的结论：开源战神部队的排头兵

基本情况：

Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论，此前Qwen2.5-80B 曾战平旧款235B模型，如今这一策略再次上演：不到400B参数的Plus模型，在能力上已能追赶上一代万亿参数规模的Max模型。

其单位Token的推理性能也达到了前所未有的优秀水平。要知道，Qwen前代所有推理模型的平均Token消耗均不低于20K，Qwen3-Next更是创下34K的纪录。而Qwen3.5-Plus 则成功摘掉了“Token粉碎机”的帽子，平均19K的消耗堪称优秀，目前仅有Gemini 3 Pro能在性能更强的同时拥有更低的Token消耗。

还需考虑到阿里云百炼平台的差异化定价策略：拥有更高上下文长度的Plus版本，其调用成本反而比开源的397B版本低一大截，这使其成为当前国产大模型中罕见的性价比之王。恐怕只有“性价比仙人”DeepSeek出手，才有可能撼动Qwen3.5的王座。

逻辑成绩：

通义Qwen3.5-Plus深度测评：开源战神部队的排头兵，推理效率与性价比双突破

注1：表格为突出对比关系，仅展示部分可对照模型，非完整排序。
注2：题目及测试方式，参见：大语言模型-逻辑能力横评 26-01 月榜。本次新增#56，#57，#58，#59题。
注3：完整榜单更新于 https://llm2014.github.io/llm_benchmark/
注4：红字模型代表工作在推理模式下（慢思考），黑色模型则为对应的非推理模式（快思考）。

本次测试新增了2月的4道新题，因此各模型分数均有所变化。下文将重点对比Qwen3.5-Plus（百炼平台部署的397B版本）与自家上一代Qwen3-Max的差异。默认讨论为推理模式，非推理模式会另有标注。

改进：

推理效率：如前所述，Qwen3.5-Plus的Token消耗取得了巨大进步。在绝大多数类型的问题上，其Token消耗均显著低于上代Max，长链推理问题上的提升尤为显著。上代Max的思维链常包含大量冗余过程和反复确认，效率较低；而Qwen3.5-Plus则显得干净利落，逻辑规整、结构清晰，并大量采用独创的思维链缩写规则，使得思考过程几乎只包含必要信息。在一些中等难度问题上，Plus的消耗甚至能低至上代Max的17%。仅在少数归纳类问题上，Plus消耗略高，但仍在正常范围。此外，Qwen3.5-Plus这一代的思维链已全部转为英文，不再像前代那样中英混杂。不过，其非推理模式则火候不足，推理消耗高于上代Max，输出内容混杂难读，若不显式要求输出格式，结论可能混杂在大段文本中，且有很大概率直接输出英文。
复杂推理：在复杂多步骤的推理问题上，Qwen3.5-Plus的极限性能不逊于上代Max。对于解空间较大的问题，上代Max容易触及Token上限，思考越久反而越难收敛；这一代基本解决了“过度思考”问题，反而能更有效地探索全部解空间。但也存在不够稳定的情况，最坏表现与上代235B相差不大。
规律洞察：上代Max在寻找规律、数据洞察类问题上的表现略低于第一梯队的其他模型，这与整个Qwen3代模型偏好“暴力求解”的风格有关。Qwen3.5-Plus则展现出更好的求解方法论，虽然也会使用穷举，但能快速排除错误分支，最终将答案有效收敛到较小范围。尽管无法满分，但方法论是可取的，与世界头部模型的主要差距在于泛化性不足。
幻觉抑制：上代Max在上下文幻觉抑制方面已有巨大改善，Qwen3.5-Plus基本保持同等水平。在仅需简单文本信息提取的场景下，Plus的精度和稳定性更好。但在需要“动脑”决定信息去留的复杂场景中，Plus的不稳定性大增，下限较低。受此影响，在一些过程较长的计算类问题中，也可能出现记错数字导致的计算错误。

不足：

字符处理：在所有需要逐字符解析和处理的问题上，Qwen3.5-Plus的表现均逊于上代Max。不过上代Max也未能稳定解决此类问题，Plus的表现可视为一种“均值回归”，整体与上代235B相差不大。
指令遵循：综合来看，上代Max在简单指令遵循上表现更稳定、精确。Qwen3.5-Plus有时会“聪明反被聪明误”，有自己的想法，反而不太能严格遵循所有要求。其最好情况可与Max持平，最坏情况则接近不可用。

总结：

从Qwen3最初发布至今已有9个月，其验证模型亮相也有5个月。对于算力充足的团队而言，5个月足以进行突破性探索。在Qwen3.5-Plus身上，我们看到了通义团队在着力解决上一代的遗留问题——如数据质量、推理低效、实用性和多模态融合等——并且解决得相当不错。这对开源社区无疑是一个振奋人心的消息，必将大幅提升2026年大模型的基础水准。

然而，究竟是什么魔力，驱使通义团队宁愿顶着除夕夜巨大的社媒流量和用户关注度“减益”也要发布新一代模型？或许是因为时间表紧张，手中待发布的新模型已多到“溢出”，这个397B尺寸的“中杯”模型只是打前站的排头兵，后面还有当量更高的“核弹”蓄势待发。若果真如此，那确实值得期待。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/21828

通义Qwen3.5-Plus深度测评：开源战神部队的排头兵，推理效率与性价比双突破

相关推荐

NVIDIA ComputeEval：从基准建立到难度升级，全面评估 LLMs 的 CUDA 代码生成能力

智谱GLM-4.7登顶开源模型榜首，以511亿港元市值冲刺“全球大模型第一股”

从零构建高级AI Agent：Python实战指南与架构设计解析

Canvas-to-Image：统一画布框架如何重塑组合式图像生成范式

AGI的物理边界：两位专家激辩人工智能的终极天花板