GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。

在这场激烈的竞争中,GLM-4.6交出了一份怎样的答卷?其响应速度大幅提升40%,排名从第20位跃升至第10位,看似成绩亮眼。但与豆包、DeepSeek等竞品对比后,却暴露出明显短板。我们对GLM-4.6进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

GLM-4.6版本表现:
* 测试题数:约1.5万
* 【总分】准确率:68.7%
* 平均耗时(每次调用):59s
* 平均消耗token(每次调用):2851
* 花费/千次调用(元):37.6

1、新旧版本对比

首先对比上个版本(GLM-4.5),数据如下:

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板
GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

  • 整体性能稳步提升:新版本准确率从66.6%提升至68.7%,增幅为2.1个百分点,排名从第20位大幅跃升至第10位。
  • 专业能力多数领域增强:从细分领域来看,新版本在多个领域均有提升。最突出的是“法律与行政公务”领域,从72.7%大幅提升至80.3%,增幅高达7.6个百分点。“教育”领域也有明显进步,从41.2%提升至46.9%(+5.7%)。“金融”领域提升0.8个百分点至77.7%,“医疗与心理健康”提升3.7个百分点至77.6%,“推理与数学计算”提升3.6个百分点至65.8%。
  • 部分领域表现分化:值得注意的是,新版本在“语言与指令遵从”领域略有下降,从66.2%降至64.6%(-1.6%)。“agent与工具调用”领域也有所回落,从72.7%降至69.9%(-2.8%),这与官方强调的智能体能力增强形成一定反差。
  • 响应速度显著优化:新版本的平均耗时从98s大幅缩短至59s,提升约39.8%,这是本次升级的一大亮点。
  • Token消耗略有优化:每次调用平均消耗的token从2944降至2851,减少约3.2%。
  • 成本小幅下降:由于token消耗减少和速度提升,每千次调用的费用从38.8元降至37.6元,成本下降约3.1%。

2、对比其他模型

GLM-4.6此次升级剑指头部厂商。那么在与榜首豆包、热门开源DeepSeek的正面竞争中,GLM-4.6的胜算究竟有多大?我们选择了具有代表性的20个模型进行横向对比分析:

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

直面豆包、DeepSeek:差距在哪?

  • 对战榜首豆包:豆包doubao-seed-1-6-thinking-250715以74.2%的准确率稳居第一,比GLM-4.6高出5.5个百分点。更关键的是,其响应速度(37s)比GLM-4.6(59s)快37%,成本(15.6元)也比GLM-4.6(37.6元)低58.5%。
  • 对战DeepSeek阵营:DeepSeek-V3.2-Exp-Think以71.0%排名第二,比GLM-4.6高2.3个百分点,成本仅6.1元,是GLM-4.6的16%。而非thinking版本的DeepSeek-V3.2-Exp(68.4%),其成本也仅1.9元,不到GLM-4.6的5%。面对DeepSeek的“性价比优势”,GLM-4.6几乎毫无还手之力。
  • 速度优势难掩短板:GLM-4.6相比前代提升了40%的响应速度,但这个速度在竞争中仍处于中游水平。比豆包doubao-seed-1-6-thinking-250715慢37%,比同档位的hunyuan-turbos-20250926(23s)慢2.5倍,速度优势并不明显。
  • “硬刚”结果:在与豆包、DeepSeek的正面对抗中,GLM-4.6陷入了“三高困境”——准确率不够高、响应速度不够快、成本过高。虽然相比自家前代有显著进步,但在激烈的市场竞争中,这些进步显得远远不够。

同档位对比

  • 成本定位偏高:GLM-4.6的37.6元/千次调用成本在所有对比模型中处于较高水平,仅低于gemini-2.5-pro(189元)、qwen3-235b-a22b-thinking-2507(61.2元)和DeepSeek-R1-0528(48元)等少数模型。
  • 性价比竞争力有限:在相近准确率档位(68%-69%)的模型中,hunyuan-turbos-20250926(68.7%,2元)、qwen-plus-2025-07-28(69.5%,1.8元)、DeepSeek-V3.2-Exp(68.4%,1.9元)等模型的成本仅为GLM-4.6的5%-20%,GLM-4.6在性价比方面明显处于劣势。

新模型之间对比

  • 新模型竞争激烈:在标注为“(new)”的新发布模型中,GLM-4.6(68.7%)要落后于DeepSeek-V3.2-Exp-Think(71.0%)。GLM-4.6与qwen3-max-preview(68.7%)、hunyuan-turbos-20250926(68.7%)准确率相同,但在成本和响应速度上均不占优。
  • Token效率需优化:GLM-4.6的2851平均token消耗在新模型中偏高,明显高于gpt-5(630)、qwen3-max-preview(903)、hunyuan-turbos-20250926(1150)等竞品,反映出模型在输出效率方面仍有优化空间。

开源VS闭源对比


关于大模型评测诊断NoneLinear
https://nonelinear.com

  1. 评测榜单——已囊括300+大模型、300+评测维度,每周更新大模型评测结果
  2. 模型选型降本——一键选出最合适模型,效果更优,成本降低50%以上
  3. 智能模型超市——统一API,一键调用全球所有大模型,GPT5 / Gemini2.5 / Claude4.5免费体验,高并发,自动故障切换,实时监控模型调用效果

GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14711

(0)
上一篇 2025年10月17日 下午12:01
下一篇 2025年10月17日 下午12:19

相关推荐

  • GPT-5.1性能评测:准确率骤降11.3%,OpenAI的“情绪价值”战略代价几何?

    OpenAI近期发布了GPT-5.1新版本,主打更自然的对话体验和情感共鸣能力。值得注意的是,官方此次并未公布传统基准测试结果,而是强调“优秀的人工智能不仅应该是聪明的,而且应该提供令人愉快的交谈”。我们对GPT-5.1(默认非思考模式)与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…

    2025年11月20日
    7000
  • 实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏

    谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…

    2025年11月21日
    6500
  • 大模型评测的演进之路:从静态指标到动态验证(2025)【Benchmarks解读】

    在人工智能快速迭代的今天,大型语言模型(LLM)的能力边界不断拓展。从最初的文本生成,到如今的复杂推理、多模态理解、智能体协作,模型能力的跃升令人瞩目。然而,一个更为关键的问题浮出水面:我们真的知道如何准确衡量这些模型的能力吗? 评测基准的发展轨迹,恰恰映射着整个行业对“智能”理解的演进。本文将系统梳理当前大模型评测的全景图谱,分享在实践中的洞察,并探讨未来…

    2025年11月11日
    8000
  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    7600
  • 评测驱动时代开启:李飞飞World Labs联手光轮智能,破解具身智能规模化评测难题

    最火世界模型,最火具身智能基建,联手了! 前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。 具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。 而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。 在这个赛道上,光轮智能基于全栈自研仿真技术体系所构…

    2026年1月19日
    6500