核心结论:开源新锐的剑之所及
基本情况:
通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。
官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显示出新模型的进步。
逻辑成绩:

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式,参见相关评测文章。
注3:完整榜单更新于指定网站。
注4:红色标注模型代表工作在推理模式下,黑色则为对应的非推理模式。
以下重点对比Qwen3.5-Flash(下称Flash)与前代Qwen3-235B 7月版本(下称235B)的差异。
改进:
- 目标推理:在具有明确唯一解的问题上,Flash得益于从更大模型蒸馏的能力,能够进行聚焦推理和逐步推导,表现显著优于235B,部分问题甚至接近更大的Qwen3.5-Plus。但与Plus的稳定输出不同,Flash的提升通常只在部分测试中显著,稳定性有待加强。一旦涉及开放性或目标不明确的问题,Flash表现则不够突出,有时会退回到原始策略。
- 指令遵循:Flash的指令遵循能力整体与235B持平,偶尔有超预期表现,更接近Plus版本。但其非推理模式下的指令遵循存在明显问题,时常会稳定地忽略复杂指令中的某一部分。
- 多轮能力:Flash在多轮对话中的目标聚焦能力略强于235B,但同样受限。其决策过程难以有效利用累积的上下文,存在重复思考现象。与Plus版本类似,但问题出现得更早。
不足:
- 低效推理:Flash的非推理模式输出内容与推理模式相似但质量不佳,平均输出Token数很高,可读性差。这连累其推理模式的Token消耗也居高不下,且常将大量Token浪费在最终输出的反复确认上。在复杂推理问题上,Flash的消耗远高于235B,但结果仅轻微领先。
- 写作幻觉:Flash在一般上下文幻觉方面与235B持平,但一旦涉及写作相关任务,会出现显著的幻觉失控,大量输出无关文本。此问题也影响代码生成,在输出大段注释后,更高概率出现后续代码的语法错误。
- 脏输出:Flash在推理和非推理模式下,最终输出均有概率夹带英文,非推理模式概率更高。两者也都会频繁输出未清洗干净的思维链标记(如半个
</think>)。这使其输出可用性较235B有所下降。
总结:
Qwen3.5-Flash在纯复杂推理能力上已看齐去年初的同类优秀模型。若以相同运行内存消耗衡量,其综合表现甚至更优,体现了大模型快速的进化速度。
当然,该模型目前仍有不完善之处,需要时间进一步打磨。假以时日,其表现值得期待。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23087
