GLM-4.6评测：速度提升40%却难敌豆包与DeepSeek，成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍，相比GLM-4.5，新版本带来了多项关键改进：上下文窗口从128K扩展至200K tokens，以支持更复杂的智能体任务；代码性能显著提升；推理能力增强，支持在推理过程中调用工具；智能体能力更强，尤其在工具使用和搜索型任务方面表现出色；写作风格也更贴近人类偏好。

在这场激烈的竞争中，GLM-4.6交出了一份怎样的答卷？其响应速度大幅提升40%，排名从第20位跃升至第10位，看似成绩亮眼。但与豆包、DeepSeek等竞品对比后，却暴露出明显短板。我们对GLM-4.6进行了全面评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

GLM-4.6版本表现：
* 测试题数：约1.5万
* 【总分】准确率：68.7%
* 平均耗时（每次调用）：59s
* 平均消耗token（每次调用）：2851
* 花费/千次调用（元）：37.6

1、新旧版本对比

首先对比上个版本（GLM-4.5），数据如下：

GLM-4.6评测：速度提升40%却难敌豆包与DeepSeek，成本与准确率成致命短板

整体性能稳步提升：新版本准确率从66.6%提升至68.7%，增幅为2.1个百分点，排名从第20位大幅跃升至第10位。
专业能力多数领域增强：从细分领域来看，新版本在多个领域均有提升。最突出的是“法律与行政公务”领域，从72.7%大幅提升至80.3%，增幅高达7.6个百分点。“教育”领域也有明显进步，从41.2%提升至46.9%（+5.7%）。“金融”领域提升0.8个百分点至77.7%，“医疗与心理健康”提升3.7个百分点至77.6%，“推理与数学计算”提升3.6个百分点至65.8%。
部分领域表现分化：值得注意的是，新版本在“语言与指令遵从”领域略有下降，从66.2%降至64.6%（-1.6%）。“agent与工具调用”领域也有所回落，从72.7%降至69.9%（-2.8%），这与官方强调的智能体能力增强形成一定反差。
响应速度显著优化：新版本的平均耗时从98s大幅缩短至59s，提升约39.8%，这是本次升级的一大亮点。
Token消耗略有优化：每次调用平均消耗的token从2944降至2851，减少约3.2%。
成本小幅下降：由于token消耗减少和速度提升，每千次调用的费用从38.8元降至37.6元，成本下降约3.1%。

2、对比其他模型

GLM-4.6此次升级剑指头部厂商。那么在与榜首豆包、热门开源DeepSeek的正面竞争中，GLM-4.6的胜算究竟有多大？我们选择了具有代表性的20个模型进行横向对比分析：

直面豆包、DeepSeek：差距在哪？

对战榜首豆包：豆包doubao-seed-1-6-thinking-250715以74.2%的准确率稳居第一，比GLM-4.6高出5.5个百分点。更关键的是，其响应速度（37s）比GLM-4.6（59s）快37%，成本（15.6元）也比GLM-4.6（37.6元）低58.5%。
对战DeepSeek阵营：DeepSeek-V3.2-Exp-Think以71.0%排名第二，比GLM-4.6高2.3个百分点，成本仅6.1元，是GLM-4.6的16%。而非thinking版本的DeepSeek-V3.2-Exp（68.4%），其成本也仅1.9元，不到GLM-4.6的5%。面对DeepSeek的“性价比优势”，GLM-4.6几乎毫无还手之力。
速度优势难掩短板：GLM-4.6相比前代提升了40%的响应速度，但这个速度在竞争中仍处于中游水平。比豆包doubao-seed-1-6-thinking-250715慢37%，比同档位的hunyuan-turbos-20250926（23s）慢2.5倍，速度优势并不明显。
“硬刚”结果：在与豆包、DeepSeek的正面对抗中，GLM-4.6陷入了“三高困境”——准确率不够高、响应速度不够快、成本过高。虽然相比自家前代有显著进步，但在激烈的市场竞争中，这些进步显得远远不够。

同档位对比

成本定位偏高：GLM-4.6的37.6元/千次调用成本在所有对比模型中处于较高水平，仅低于gemini-2.5-pro（189元）、qwen3-235b-a22b-thinking-2507（61.2元）和DeepSeek-R1-0528（48元）等少数模型。
性价比竞争力有限：在相近准确率档位（68%-69%）的模型中，hunyuan-turbos-20250926（68.7%，2元）、qwen-plus-2025-07-28（69.5%，1.8元）、DeepSeek-V3.2-Exp（68.4%，1.9元）等模型的成本仅为GLM-4.6的5%-20%，GLM-4.6在性价比方面明显处于劣势。

新模型之间对比

新模型竞争激烈：在标注为“(new)”的新发布模型中，GLM-4.6（68.7%）要落后于DeepSeek-V3.2-Exp-Think（71.0%）。GLM-4.6与qwen3-max-preview（68.7%）、hunyuan-turbos-20250926（68.7%）准确率相同，但在成本和响应速度上均不占优。
Token效率需优化：GLM-4.6的2851平均token消耗在新模型中偏高，明显高于gpt-5（630）、qwen3-max-preview（903）、hunyuan-turbos-20250926（1150）等竞品，反映出模型在输出效率方面仍有优化空间。