通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

1天前 • 大模型评测 • 阅读 26

核心结论：开源新锐的剑之所及

基本情况：

通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。

官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下，其表现确实大幅领先于235B；但在新模式下的稳定性仍需打磨，综合中位表现与235B基本持平。考虑到235B的参数量级更大，这一结果仍显示出新模型的进步。

逻辑成绩：

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

注1：表格为突出对比关系，仅展示部分可对照模型，非完整排序。
注2：题目及测试方式，参见相关评测文章。
注3：完整榜单更新于指定网站。
注4：红色标注模型代表工作在推理模式下，黑色则为对应的非推理模式。

以下重点对比Qwen3.5-Flash（下称Flash）与前代Qwen3-235B 7月版本（下称235B）的差异。

改进：

目标推理：在具有明确唯一解的问题上，Flash得益于从更大模型蒸馏的能力，能够进行聚焦推理和逐步推导，表现显著优于235B，部分问题甚至接近更大的Qwen3.5-Plus。但与Plus的稳定输出不同，Flash的提升通常只在部分测试中显著，稳定性有待加强。一旦涉及开放性或目标不明确的问题，Flash表现则不够突出，有时会退回到原始策略。
指令遵循：Flash的指令遵循能力整体与235B持平，偶尔有超预期表现，更接近Plus版本。但其非推理模式下的指令遵循存在明显问题，时常会稳定地忽略复杂指令中的某一部分。
多轮能力：Flash在多轮对话中的目标聚焦能力略强于235B，但同样受限。其决策过程难以有效利用累积的上下文，存在重复思考现象。与Plus版本类似，但问题出现得更早。

不足：

低效推理：Flash的非推理模式输出内容与推理模式相似但质量不佳，平均输出Token数很高，可读性差。这连累其推理模式的Token消耗也居高不下，且常将大量Token浪费在最终输出的反复确认上。在复杂推理问题上，Flash的消耗远高于235B，但结果仅轻微领先。
写作幻觉：Flash在一般上下文幻觉方面与235B持平，但一旦涉及写作相关任务，会出现显著的幻觉失控，大量输出无关文本。此问题也影响代码生成，在输出大段注释后，更高概率出现后续代码的语法错误。
脏输出：Flash在推理和非推理模式下，最终输出均有概率夹带英文，非推理模式概率更高。两者也都会频繁输出未清洗干净的思维链标记（如半个</think>）。这使其输出可用性较235B有所下降。

总结：

Qwen3.5-Flash在纯复杂推理能力上已看齐去年初的同类优秀模型。若以相同运行内存消耗衡量，其综合表现甚至更优，体现了大模型快速的进化速度。

当然，该模型目前仍有不完善之处，需要时间进一步打磨。假以时日，其表现值得期待。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23087