智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。
在这场激烈的竞争中,GLM-4.6交出了一份怎样的答卷?其响应速度大幅提升40%,排名从第20位跃升至第10位,看似成绩亮眼。但与豆包、DeepSeek等竞品对比后,却暴露出明显短板。我们对GLM-4.6进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。
GLM-4.6版本表现:
* 测试题数:约1.5万
* 【总分】准确率:68.7%
* 平均耗时(每次调用):59s
* 平均消耗token(每次调用):2851
* 花费/千次调用(元):37.6
1、新旧版本对比
首先对比上个版本(GLM-4.5),数据如下:


- 整体性能稳步提升:新版本准确率从66.6%提升至68.7%,增幅为2.1个百分点,排名从第20位大幅跃升至第10位。
- 专业能力多数领域增强:从细分领域来看,新版本在多个领域均有提升。最突出的是“法律与行政公务”领域,从72.7%大幅提升至80.3%,增幅高达7.6个百分点。“教育”领域也有明显进步,从41.2%提升至46.9%(+5.7%)。“金融”领域提升0.8个百分点至77.7%,“医疗与心理健康”提升3.7个百分点至77.6%,“推理与数学计算”提升3.6个百分点至65.8%。
- 部分领域表现分化:值得注意的是,新版本在“语言与指令遵从”领域略有下降,从66.2%降至64.6%(-1.6%)。“agent与工具调用”领域也有所回落,从72.7%降至69.9%(-2.8%),这与官方强调的智能体能力增强形成一定反差。
- 响应速度显著优化:新版本的平均耗时从98s大幅缩短至59s,提升约39.8%,这是本次升级的一大亮点。
- Token消耗略有优化:每次调用平均消耗的token从2944降至2851,减少约3.2%。
- 成本小幅下降:由于token消耗减少和速度提升,每千次调用的费用从38.8元降至37.6元,成本下降约3.1%。
2、对比其他模型
GLM-4.6此次升级剑指头部厂商。那么在与榜首豆包、热门开源DeepSeek的正面竞争中,GLM-4.6的胜算究竟有多大?我们选择了具有代表性的20个模型进行横向对比分析:

直面豆包、DeepSeek:差距在哪?
- 对战榜首豆包:豆包doubao-seed-1-6-thinking-250715以74.2%的准确率稳居第一,比GLM-4.6高出5.5个百分点。更关键的是,其响应速度(37s)比GLM-4.6(59s)快37%,成本(15.6元)也比GLM-4.6(37.6元)低58.5%。
- 对战DeepSeek阵营:DeepSeek-V3.2-Exp-Think以71.0%排名第二,比GLM-4.6高2.3个百分点,成本仅6.1元,是GLM-4.6的16%。而非thinking版本的DeepSeek-V3.2-Exp(68.4%),其成本也仅1.9元,不到GLM-4.6的5%。面对DeepSeek的“性价比优势”,GLM-4.6几乎毫无还手之力。
- 速度优势难掩短板:GLM-4.6相比前代提升了40%的响应速度,但这个速度在竞争中仍处于中游水平。比豆包doubao-seed-1-6-thinking-250715慢37%,比同档位的hunyuan-turbos-20250926(23s)慢2.5倍,速度优势并不明显。
- “硬刚”结果:在与豆包、DeepSeek的正面对抗中,GLM-4.6陷入了“三高困境”——准确率不够高、响应速度不够快、成本过高。虽然相比自家前代有显著进步,但在激烈的市场竞争中,这些进步显得远远不够。
同档位对比
- 成本定位偏高:GLM-4.6的37.6元/千次调用成本在所有对比模型中处于较高水平,仅低于gemini-2.5-pro(189元)、qwen3-235b-a22b-thinking-2507(61.2元)和DeepSeek-R1-0528(48元)等少数模型。
- 性价比竞争力有限:在相近准确率档位(68%-69%)的模型中,hunyuan-turbos-20250926(68.7%,2元)、qwen-plus-2025-07-28(69.5%,1.8元)、DeepSeek-V3.2-Exp(68.4%,1.9元)等模型的成本仅为GLM-4.6的5%-20%,GLM-4.6在性价比方面明显处于劣势。
新模型之间对比
- 新模型竞争激烈:在标注为“(new)”的新发布模型中,GLM-4.6(68.7%)要落后于DeepSeek-V3.2-Exp-Think(71.0%)。GLM-4.6与qwen3-max-preview(68.7%)、hunyuan-turbos-20250926(68.7%)准确率相同,但在成本和响应速度上均不占优。
- Token效率需优化:GLM-4.6的2851平均token消耗在新模型中偏高,明显高于gpt-5(630)、qwen3-max-preview(903)、hunyuan-turbos-20250926(1150)等竞品,反映出模型在输出效率方面仍有优化空间。
开源VS闭源对比
- 开源模型定位尴尬:作为开源模型,GLM-4.6在开源阵营中排名第4位,低于DeepSeek-V3.2-Exp-Think(71.0%)、DeepSeek-V3.1-Think(69.4%)和qwen3-235b-a22b-instruct-2507(69.0%),而且成本高于这些竞品。
-
开源模型成本分化:在开源模型中,GLM-4.6的37.6元成本仅低于qwen3-235b-a22b-thinking-2507(61.2元)和DeepSeek-R1-0528(48元),但明显高于DeepSeek-V3.2-Exp-Think(6.1元)、qwen3-235b-a22b-instruct-2507(7.2元)、DeepSeek-V3.2-Exp(1.9元)等高性价比开源模型。
- 万字长文 | LLM agent评测:评测工具使用、任务完成、agent推理等
- 盘点全球AI混合思考、自适应思考大模型,附操作指南(8.4)
- 同一个混合推理模型,思考和关闭思考差距有多大?效果/成本/耗时全面对比,以Qwen3、豆包seed1.6、GLM4.5等为例
- 全球AI大模型啰嗦程度排名:最啰嗦的竟然是Qwen3-8B和MiniMax-M1
- GitHub最热门大模型评测项目TOP50汇总:前10仅2个出自国内
- 全球AI大模型API限速汇总:你被Rate limit了吗?
- 开源大模型不同供应商价格对比:DeepSeek-V3.1 / Qwen3 / kimi-k2…
- Qwen3-Max-Preview实测:非思考模型新王者诞生
- LLM文本摘要评测实战指南
- 阿里qwen3-next-80b-a3b-instruct实测
- 姚顺雨成名作“智能体评测集τ-bench”上手指南
- DeepSeek-V3.2-Exp非思考模式实测
- DeepSeek-V3.2-Exp思考模式实测:开源模型王者
- 深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
- 每月AI大模型更新速递(25年9月)
- 每周AI大模型更新速递10.1~10.12
- 大模型智能体评测综述【Benchmarks解读】
关于大模型评测诊断NoneLinear
https://nonelinear.com
- 评测榜单——已囊括300+大模型、300+评测维度,每周更新大模型评测结果
- 模型选型降本——一键选出最合适模型,效果更优,成本降低50%以上
- 智能模型超市——统一API,一键调用全球所有大模型,GPT5 / Gemini2.5 / Claude4.5免费体验,高并发,自动故障切换,实时监控模型调用效果

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14711
