通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

核心结论:开源新锐的剑之所及

基本情况:

通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。

官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显示出新模型的进步。

逻辑成绩:

通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。
注2:题目及测试方式,参见相关评测文章。
注3:完整榜单更新于指定网站。
注4:红色标注模型代表工作在推理模式下,黑色则为对应的非推理模式。

以下重点对比Qwen3.5-Flash(下称Flash)与前代Qwen3-235B 7月版本(下称235B)的差异。

改进:

  • 目标推理:在具有明确唯一解的问题上,Flash得益于从更大模型蒸馏的能力,能够进行聚焦推理和逐步推导,表现显著优于235B,部分问题甚至接近更大的Qwen3.5-Plus。但与Plus的稳定输出不同,Flash的提升通常只在部分测试中显著,稳定性有待加强。一旦涉及开放性或目标不明确的问题,Flash表现则不够突出,有时会退回到原始策略。
  • 指令遵循:Flash的指令遵循能力整体与235B持平,偶尔有超预期表现,更接近Plus版本。但其非推理模式下的指令遵循存在明显问题,时常会稳定地忽略复杂指令中的某一部分。
  • 多轮能力:Flash在多轮对话中的目标聚焦能力略强于235B,但同样受限。其决策过程难以有效利用累积的上下文,存在重复思考现象。与Plus版本类似,但问题出现得更早。

不足:

  • 低效推理:Flash的非推理模式输出内容与推理模式相似但质量不佳,平均输出Token数很高,可读性差。这连累其推理模式的Token消耗也居高不下,且常将大量Token浪费在最终输出的反复确认上。在复杂推理问题上,Flash的消耗远高于235B,但结果仅轻微领先。
  • 写作幻觉:Flash在一般上下文幻觉方面与235B持平,但一旦涉及写作相关任务,会出现显著的幻觉失控,大量输出无关文本。此问题也影响代码生成,在输出大段注释后,更高概率出现后续代码的语法错误。
  • 脏输出:Flash在推理和非推理模式下,最终输出均有概率夹带英文,非推理模式概率更高。两者也都会频繁输出未清洗干净的思维链标记(如半个</think>)。这使其输出可用性较235B有所下降。

总结:

Qwen3.5-Flash在纯复杂推理能力上已看齐去年初的同类优秀模型。若以相同运行内存消耗衡量,其综合表现甚至更优,体现了大模型快速的进化速度。

当然,该模型目前仍有不完善之处,需要时间进一步打磨。假以时日,其表现值得期待。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23087

(0)
上一篇 1天前
下一篇 19小时前

相关推荐

  • 大模型编程应用测试-V3榜单:以工程应用标准量化模型能力

    #0 前言 笔者最早的编程测试V1采用传统的3 Pass测试法,25年下半年迭代了更贴近多轮场景的V2测试法。但仅测试3轮的V2方法局限性仍然很大。首先,该方法只观察模型在3轮自主修复中能取得的最终成绩,而实际Agent场景中,编程模型拥有几乎无限的轮次,只要能解决问题即可。其次,V2方法只提供运行结果反馈,不提供工具,而实际Agent可以借助Lint/Co…

    2026年1月3日
    12900
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    14100
  • DeepEval开源方案:用LLM合成数据,90%成本锐减,评测效率飙升

    测试LLM输出效果,离不开大量数据集。从零开始准备这些数据,费时、烧钱,还特别折腾。但现在情况不一样了:以前要花几周手工打造的数千条测试用例,现在几分钟就搞定。 合成数据生成的核心思路很简单:让LLM自己造数据,省掉收集、清洗、标注这些苦力活。有了GPT-4等这样的模型,合成出来的数据集比人工标注的更全面、更多样,速度还快得多。这些数据可以用来给LLM系统做…

    2025年10月24日
    42100
  • 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

    智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。 一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成与多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。 核心评测结论:* 三大亮点: * 基础推理扎实:在数学计算、逻辑推理、文本处理等基…

    2026年1月4日
    89500
  • DeepSeek V3.2 多维度能力评测:从基础交互到复杂游戏逻辑的10个实战用例分析

    最近,DeepSeek 发布了 V3.2 版本。为了对其能力进行系统评估,我们设计了一系列按难度递进的实战测试用例。每个用例均包含:用例名称、技术标签、考察重点及完整的 Prompt。 第一关:热身赛(基础能力验证) 1.1 复古打字机应用 技术标签:前端交互 | 动画效果 | 拖拽功能 考察重点:能否精准实现“打字机缓慢吐字”的动画细节与交互逻辑。 Pro…

    2025年12月9日
    17400