GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。

在这场激烈的竞争中,GLM-4.6交出了一份怎样的答卷?其响应速度大幅提升40%,排名从第20位跃升至第10位,看似成绩亮眼。但与豆包、DeepSeek等竞品对比后,却暴露出明显短板。我们对GLM-4.6进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

GLM-4.6版本表现:
* 测试题数:约1.5万
* 【总分】准确率:68.7%
* 平均耗时(每次调用):59s
* 平均消耗token(每次调用):2851
* 花费/千次调用(元):37.6

1、新旧版本对比

首先对比上个版本(GLM-4.5),数据如下:

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板
GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

  • 整体性能稳步提升:新版本准确率从66.6%提升至68.7%,增幅为2.1个百分点,排名从第20位大幅跃升至第10位。
  • 专业能力多数领域增强:从细分领域来看,新版本在多个领域均有提升。最突出的是“法律与行政公务”领域,从72.7%大幅提升至80.3%,增幅高达7.6个百分点。“教育”领域也有明显进步,从41.2%提升至46.9%(+5.7%)。“金融”领域提升0.8个百分点至77.7%,“医疗与心理健康”提升3.7个百分点至77.6%,“推理与数学计算”提升3.6个百分点至65.8%。
  • 部分领域表现分化:值得注意的是,新版本在“语言与指令遵从”领域略有下降,从66.2%降至64.6%(-1.6%)。“agent与工具调用”领域也有所回落,从72.7%降至69.9%(-2.8%),这与官方强调的智能体能力增强形成一定反差。
  • 响应速度显著优化:新版本的平均耗时从98s大幅缩短至59s,提升约39.8%,这是本次升级的一大亮点。
  • Token消耗略有优化:每次调用平均消耗的token从2944降至2851,减少约3.2%。
  • 成本小幅下降:由于token消耗减少和速度提升,每千次调用的费用从38.8元降至37.6元,成本下降约3.1%。

2、对比其他模型

GLM-4.6此次升级剑指头部厂商。那么在与榜首豆包、热门开源DeepSeek的正面竞争中,GLM-4.6的胜算究竟有多大?我们选择了具有代表性的20个模型进行横向对比分析:

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

直面豆包、DeepSeek:差距在哪?

  • 对战榜首豆包:豆包doubao-seed-1-6-thinking-250715以74.2%的准确率稳居第一,比GLM-4.6高出5.5个百分点。更关键的是,其响应速度(37s)比GLM-4.6(59s)快37%,成本(15.6元)也比GLM-4.6(37.6元)低58.5%。
  • 对战DeepSeek阵营:DeepSeek-V3.2-Exp-Think以71.0%排名第二,比GLM-4.6高2.3个百分点,成本仅6.1元,是GLM-4.6的16%。而非thinking版本的DeepSeek-V3.2-Exp(68.4%),其成本也仅1.9元,不到GLM-4.6的5%。面对DeepSeek的“性价比优势”,GLM-4.6几乎毫无还手之力。
  • 速度优势难掩短板:GLM-4.6相比前代提升了40%的响应速度,但这个速度在竞争中仍处于中游水平。比豆包doubao-seed-1-6-thinking-250715慢37%,比同档位的hunyuan-turbos-20250926(23s)慢2.5倍,速度优势并不明显。
  • “硬刚”结果:在与豆包、DeepSeek的正面对抗中,GLM-4.6陷入了“三高困境”——准确率不够高、响应速度不够快、成本过高。虽然相比自家前代有显著进步,但在激烈的市场竞争中,这些进步显得远远不够。

同档位对比

  • 成本定位偏高:GLM-4.6的37.6元/千次调用成本在所有对比模型中处于较高水平,仅低于gemini-2.5-pro(189元)、qwen3-235b-a22b-thinking-2507(61.2元)和DeepSeek-R1-0528(48元)等少数模型。
  • 性价比竞争力有限:在相近准确率档位(68%-69%)的模型中,hunyuan-turbos-20250926(68.7%,2元)、qwen-plus-2025-07-28(69.5%,1.8元)、DeepSeek-V3.2-Exp(68.4%,1.9元)等模型的成本仅为GLM-4.6的5%-20%,GLM-4.6在性价比方面明显处于劣势。

新模型之间对比

  • 新模型竞争激烈:在标注为“(new)”的新发布模型中,GLM-4.6(68.7%)要落后于DeepSeek-V3.2-Exp-Think(71.0%)。GLM-4.6与qwen3-max-preview(68.7%)、hunyuan-turbos-20250926(68.7%)准确率相同,但在成本和响应速度上均不占优。
  • Token效率需优化:GLM-4.6的2851平均token消耗在新模型中偏高,明显高于gpt-5(630)、qwen3-max-preview(903)、hunyuan-turbos-20250926(1150)等竞品,反映出模型在输出效率方面仍有优化空间。

开源VS闭源对比


关于大模型评测诊断NoneLinear
https://nonelinear.com

  1. 评测榜单——已囊括300+大模型、300+评测维度,每周更新大模型评测结果
  2. 模型选型降本——一键选出最合适模型,效果更优,成本降低50%以上
  3. 智能模型超市——统一API,一键调用全球所有大模型,GPT5 / Gemini2.5 / Claude4.5免费体验,高并发,自动故障切换,实时监控模型调用效果

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14711

(0)
上一篇 2025年10月17日 下午12:01
下一篇 2025年10月17日 下午12:19

相关推荐