通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

核心结论:开源新锐的剑之所及

基本情况:

通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。

官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显示出新模型的进步。

逻辑成绩:

通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式,参见相关评测文章。
注3:完整榜单更新于指定网站。
注4:红色标注模型代表工作在推理模式下,黑色则为对应的非推理模式。

以下重点对比Qwen3.5-Flash(下称Flash)与前代Qwen3-235B 7月版本(下称235B)的差异。

改进:

  • 目标推理:在具有明确唯一解的问题上,Flash得益于从更大模型蒸馏的能力,能够进行聚焦推理和逐步推导,表现显著优于235B,部分问题甚至接近更大的Qwen3.5-Plus。但与Plus的稳定输出不同,Flash的提升通常只在部分测试中显著,稳定性有待加强。一旦涉及开放性或目标不明确的问题,Flash表现则不够突出,有时会退回到原始策略。
  • 指令遵循:Flash的指令遵循能力整体与235B持平,偶尔有超预期表现,更接近Plus版本。但其非推理模式下的指令遵循存在明显问题,时常会稳定地忽略复杂指令中的某一部分。
  • 多轮能力:Flash在多轮对话中的目标聚焦能力略强于235B,但同样受限。其决策过程难以有效利用累积的上下文,存在重复思考现象。与Plus版本类似,但问题出现得更早。

不足:

  • 低效推理:Flash的非推理模式输出内容与推理模式相似但质量不佳,平均输出Token数很高,可读性差。这连累其推理模式的Token消耗也居高不下,且常将大量Token浪费在最终输出的反复确认上。在复杂推理问题上,Flash的消耗远高于235B,但结果仅轻微领先。
  • 写作幻觉:Flash在一般上下文幻觉方面与235B持平,但一旦涉及写作相关任务,会出现显著的幻觉失控,大量输出无关文本。此问题也影响代码生成,在输出大段注释后,更高概率出现后续代码的语法错误。
  • 脏输出:Flash在推理和非推理模式下,最终输出均有概率夹带英文,非推理模式概率更高。两者也都会频繁输出未清洗干净的思维链标记(如半个</think>)。这使其输出可用性较235B有所下降。

总结:

Qwen3.5-Flash在纯复杂推理能力上已看齐去年初的同类优秀模型。若以相同运行内存消耗衡量,其综合表现甚至更优,体现了大模型快速的进化速度。

当然,该模型目前仍有不完善之处,需要时间进一步打磨。假以时日,其表现值得期待。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/23087

(0)
上一篇 2026年2月26日 上午8:11
下一篇 2026年2月26日 下午12:40

相关推荐

  • 大模型评测框架全景解析:如何选择适合你的测试工具?

    在大模型技术快速迭代的今天,我们面临一个共同的挑战:如何客观、全面地评测一个模型的真实能力? 这不仅关乎技术指标的高低,更涉及模型在实际应用中能否真正解决问题。 大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营,各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是,评测正从单一维度的“跑分”走向多…

    2025年11月14日
    19500
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    18100
  • OpenAI重磅研究:推理越强的AI,越管不住自己的“脑子”!思维链可控性测试惊现0.1%成功率

    【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象:推理能力越强的模型,越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也仅有2.7%。 向AI下达一条明确的指令:在推理过程中,严禁出现“XOR”一词。 模型开始正常推理,但…

    6天前
    6900
  • 国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

    全球榜单中唯一成功率超过50%的模型。 智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,…

    2026年1月12日
    17500
  • Kimi K2 ToolCall性能大揭秘:12家服务商评测结果出炉,开源测试集助力API一致性优化

    自 Kimi K2 发布以来,Kimi开放平台收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。 用户在选择 API 服务商时,往往优先考虑延迟和成本,却可能无意中忽略了更微妙却关键的模型精度差异。 因此,Kimi开…

    2025年10月16日
    24800