GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。

在这场激烈的竞争中,GLM-4.6交出了一份怎样的答卷?其响应速度大幅提升40%,排名从第20位跃升至第10位,看似成绩亮眼。但与豆包、DeepSeek等竞品对比后,却暴露出明显短板。我们对GLM-4.6进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

GLM-4.6版本表现:
* 测试题数:约1.5万
* 【总分】准确率:68.7%
* 平均耗时(每次调用):59s
* 平均消耗token(每次调用):2851
* 花费/千次调用(元):37.6

1、新旧版本对比

首先对比上个版本(GLM-4.5),数据如下:

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板
GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

  • 整体性能稳步提升:新版本准确率从66.6%提升至68.7%,增幅为2.1个百分点,排名从第20位大幅跃升至第10位。
  • 专业能力多数领域增强:从细分领域来看,新版本在多个领域均有提升。最突出的是“法律与行政公务”领域,从72.7%大幅提升至80.3%,增幅高达7.6个百分点。“教育”领域也有明显进步,从41.2%提升至46.9%(+5.7%)。“金融”领域提升0.8个百分点至77.7%,“医疗与心理健康”提升3.7个百分点至77.6%,“推理与数学计算”提升3.6个百分点至65.8%。
  • 部分领域表现分化:值得注意的是,新版本在“语言与指令遵从”领域略有下降,从66.2%降至64.6%(-1.6%)。“agent与工具调用”领域也有所回落,从72.7%降至69.9%(-2.8%),这与官方强调的智能体能力增强形成一定反差。
  • 响应速度显著优化:新版本的平均耗时从98s大幅缩短至59s,提升约39.8%,这是本次升级的一大亮点。
  • Token消耗略有优化:每次调用平均消耗的token从2944降至2851,减少约3.2%。
  • 成本小幅下降:由于token消耗减少和速度提升,每千次调用的费用从38.8元降至37.6元,成本下降约3.1%。

2、对比其他模型

GLM-4.6此次升级剑指头部厂商。那么在与榜首豆包、热门开源DeepSeek的正面竞争中,GLM-4.6的胜算究竟有多大?我们选择了具有代表性的20个模型进行横向对比分析:

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

直面豆包、DeepSeek:差距在哪?

  • 对战榜首豆包:豆包doubao-seed-1-6-thinking-250715以74.2%的准确率稳居第一,比GLM-4.6高出5.5个百分点。更关键的是,其响应速度(37s)比GLM-4.6(59s)快37%,成本(15.6元)也比GLM-4.6(37.6元)低58.5%。
  • 对战DeepSeek阵营:DeepSeek-V3.2-Exp-Think以71.0%排名第二,比GLM-4.6高2.3个百分点,成本仅6.1元,是GLM-4.6的16%。而非thinking版本的DeepSeek-V3.2-Exp(68.4%),其成本也仅1.9元,不到GLM-4.6的5%。面对DeepSeek的“性价比优势”,GLM-4.6几乎毫无还手之力。
  • 速度优势难掩短板:GLM-4.6相比前代提升了40%的响应速度,但这个速度在竞争中仍处于中游水平。比豆包doubao-seed-1-6-thinking-250715慢37%,比同档位的hunyuan-turbos-20250926(23s)慢2.5倍,速度优势并不明显。
  • “硬刚”结果:在与豆包、DeepSeek的正面对抗中,GLM-4.6陷入了“三高困境”——准确率不够高、响应速度不够快、成本过高。虽然相比自家前代有显著进步,但在激烈的市场竞争中,这些进步显得远远不够。

同档位对比

  • 成本定位偏高:GLM-4.6的37.6元/千次调用成本在所有对比模型中处于较高水平,仅低于gemini-2.5-pro(189元)、qwen3-235b-a22b-thinking-2507(61.2元)和DeepSeek-R1-0528(48元)等少数模型。
  • 性价比竞争力有限:在相近准确率档位(68%-69%)的模型中,hunyuan-turbos-20250926(68.7%,2元)、qwen-plus-2025-07-28(69.5%,1.8元)、DeepSeek-V3.2-Exp(68.4%,1.9元)等模型的成本仅为GLM-4.6的5%-20%,GLM-4.6在性价比方面明显处于劣势。

新模型之间对比

  • 新模型竞争激烈:在标注为“(new)”的新发布模型中,GLM-4.6(68.7%)要落后于DeepSeek-V3.2-Exp-Think(71.0%)。GLM-4.6与qwen3-max-preview(68.7%)、hunyuan-turbos-20250926(68.7%)准确率相同,但在成本和响应速度上均不占优。
  • Token效率需优化:GLM-4.6的2851平均token消耗在新模型中偏高,明显高于gpt-5(630)、qwen3-max-preview(903)、hunyuan-turbos-20250926(1150)等竞品,反映出模型在输出效率方面仍有优化空间。

开源VS闭源对比


关于大模型评测诊断NoneLinear
https://nonelinear.com

  1. 评测榜单——已囊括300+大模型、300+评测维度,每周更新大模型评测结果
  2. 模型选型降本——一键选出最合适模型,效果更优,成本降低50%以上
  3. 智能模型超市——统一API,一键调用全球所有大模型,GPT5 / Gemini2.5 / Claude4.5免费体验,高并发,自动故障切换,实时监控模型调用效果

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14711

(0)
上一篇 2025年10月17日 下午12:01
下一篇 2025年10月17日 下午12:19

相关推荐

  • 3B小模型逆袭万亿巨头:Nanbeige4.1-3B如何以“小而全”颠覆大模型军备竞赛?

    近年来,大模型领域的竞争日趋白热化,无论是开源还是闭源阵营,都陷入了对 Scaling Law、算力与参数量的极致追求,其规模膨胀的速度已近乎“军备竞赛”。 过去,拥有约15亿参数的GPT-2在如今看来已属“小模型”。而GPT-4的参数规模据业内估计已达万亿级别,GPT-5等后续模型的体量更是难以估量。开源模型同样在向超大参数迈进,超过6000亿参数的模型已…

    2026年3月9日
    60300
  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    31600
  • 腾讯混元HY 2.0 Think深度评测:思考能力初显,但前端实现仍欠火候

    混元大模型近期推出了HY 2.0 Think版本,其核心特性是深度思考能力。我们使用一套前端评测用例,对其代码生成能力进行了测试。 常规用例评测 这部分用例与之前的DeepSeek V3.2评测保持一致,旨在快速评估其整体水平。 (1) 复古打印机 核心功能完整实现,打字效果富有节奏感。卡片拖拽功能正常,页面风格也体现了复古韵味。 (2) 双栏响应式Hero…

    2025年12月10日
    77500
  • 清华×斯坦福联手打造Ctrl-World世界模型,具身智能评测登顶全球,视频生成力压谷歌英伟达

    在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩: 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶; 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo…

    2026年2月26日
    38400
  • 通用大模型工业考试翻车,IndustryGPT三场全胜揭示制造业AI新方向

    通用大模型工业考试遇挫,IndustryGPT全胜揭示制造业AI新方向 近期,数款顶级通用大模型参与了三场特殊的 “工业执业考试” 。 结果出人意料:即便是GPT-5.2 Thinking (high)、Gemini-3.1-Pro这类表现卓越的模型,在面对真实的工业工程语境时,也显得力不从心。 能写诗、能编程的通用AI,为何难以应对一条生产线的实际问题? …

    2026年3月9日
    30100