GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-high(思考模式)与上一版本GPT-5.1-high进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GPT-5.2-high版本表现:
* 测试题数:约1.5万
* 总分(准确率):67.4%
* 平均耗时(每次调用):36s
* 平均token(每次调用消耗的token):1259
* 平均花费(每千次调用的人民币花费):94.1

1、新旧版本对比

首先对比上个版本(GPT-5.1-high),数据如下:

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战
GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是”1元/M token “

  • 整体性能出现回落:新版本准确率从69.7%下降至67.4%,下滑了2.3个百分点,排名从第6位降至第18位。这一变化值得关注,表明此次升级并非简单的性能提升,而是在多个维度进行了权衡调整。
  • 部分专业领域有所提升:金融领域表现亮眼,从72.6%提升至76.4%(+3.8%);法律与行政公务也有所改善,从75.0%升至76.0%(+1.0%);医疗与心理健康微幅提升,从77.6%升至77.9%(+0.3%)。
  • 语言与工具能力明显下滑:Agent与工具调用能力下降最为显著,从59.2%降至50.8%(-8.4%);语言与指令遵从也有所回落,从67.0%降至63.8%(-3.2%)。这两项能力的下滑是导致总分下降的主要原因。
  • 推理能力保持稳定:推理与数学计算能力基本持平,从84.7%微升至84.8%,维持在较高水平,说明核心推理能力并未受到影响。
  • 响应速度大幅提升:平均耗时从117s大幅缩短至36s,提升了约69%,用户体验显著改善。
  • Token效率显著优化:每次调用的平均token消耗从2745降至1259,减少了约54%,说明新版本在推理效率上进行了重大优化。
  • 成本大幅下降:虽然输出价格从71.0元/M token上调至99.4元/M token,但由于token消耗大幅减少,每千次调用的费用从180元降至94.1元,成本下降约48%。

2、对比其他模型

在当前主流大模型竞争格局中,GPT-5.2-high表现如何?我们选择了具有代表性的模型进行横向对比分析:

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 成本效率比优势不明显:在90元以上成本区间,GPT-5.2-high的67.4%准确率低于同成本档位的gpt-5.1-medium(87.9元,69.3%),与ERNIE-5.0-Thinking-Preview(72.5元,67.5%)准确率相当但成本更高。
* 与低成本高性能模型差距明显:hunyuan-2.0-thinking-20251109(9.5元,71.9%)和doubao-seed-1-6-thinking-250715(15.6元,71.7%)以不到GPT-5.2-high十分之一的成本,实现了更高的总分准确率,性价比优势突出。

新旧模型对比:
* OpenAI产品线内部分化:GPT-5.2-high(67.4%)准确率低于GPT-5.1-high(69.7%),也低于gpt-5-2025-08-07(68.9%)和o4-mini(69.0%),在OpenAI自家产品线中并非最优选择。
* 速度优势换取准确率:36s的响应时间在GPT系列的思考模型中最快,比gpt-5.1-high(117s)快69%,比gpt-5.1-medium(160s)快78%,体现了“速度优先”的产品定位。
* 其他厂商新版本普遍更强:对比同期发布的新模型,从总分来看,DeepSeek-V3.2-Think(70.9%)、hunyuan-2.0-thinking-20251109(71.9%)、GLM-4.6(68.1%)等均表现更优,GPT-5.2-high在新一代模型竞争中处于中上游位置。

开源VS闭源对比:
* 开源模型成本效率比碾压:DeepSeek-V3.2-Think以7.5元/千次实现70.9%准确率,DeepSeek-V3.2-Exp-Think以6.1元实现70.1%,成本不到GPT-5.2-high的十分之一,总分准确率却更高。
* 响应速度有优势:GPT-5.2-high的36s响应时间明显快于大多数开源思考模型,如DeepSeek-V3.2-Think(144s)、qwen3-235b-a22b-thinking-2507(143s),在对延迟敏感的场景仍具竞争力。

3、官方评测

OpenAI官方将GPT-5.2定位为“迄今为止最强大的模型系列,为专业知识型工作而打造”。根据官方公布的评测数据,GPT-5.2在多项基准测试中刷新了行业水平:

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

知识型工作任务领先:在GDPval评测中,GPT-5.2 Thinking在涵盖44个职业的知识型工作任务上,有70.9%的对比项目表现优于或持平顶尖行业专家,相比GPT-5的38.8%实现了大幅跃升。官方表示,GPT-5.2的输出速度比专家快11倍以上,成本却不到其1%。

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

编码能力显著提升:在SWE-bench Pro测试中取得55.6%的成绩(GPT-5.1为50.8%),在SWE-bench Verified测试中达到80.0%(GPT-5.1为76.3%)。多家合作伙伴如Windsurf、JetBrains、Augment Code等表示,GPT-5.2在智能体编码方面达到了行业领先水平。

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

事实性明显改善:官方称GPT-5.2 Thinking的幻觉率相比GPT-5.1 Thinking降低了38%,含有错误的回答比例从8.8%降至6.2%。

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

长上下文能力突破:在OpenAI MRCRv2评测中,GPT-5.2 Thinking成为首个在4-needle变体(最长256k Token)中实现接近100%准确率的模型,大幅领先GPT-5.1 Thinking。

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

视觉理解能力倍增:在ScreenSpot-Pro测试中,GPT-5.2 Thinking达到86.3%,相比GPT-5.1 Thinking的64.2%提升了22.1个百分点;在CharXiv推理测试中从80.3%提升至88.7%。

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

工具调用更加可靠:在Tau2-bench Telecom测试中取得98.7%的成绩(GPT-5.1为95.6%),展示了在长程多轮任务中可靠使用工具的能力。

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

科学与数学能力领先:在GPQA Diamond测试中达到92.4%(GPT-5.1为88.1%);在FrontierMath (Tier 1-3)中取得40.3%(GPT-5.1为31.0%);在HMMT 2025数学竞赛中达到99.4%。

GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战

抽象推理能力大幅提升:在ARC-AGI-2 (Verified)测试中,GPT-5.2 Thinking以52.9%的成绩刷新纪录,相比GPT-5.1 Thinking的17.6%提升了35.3个百分点。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14507

(0)
上一篇 2025年12月16日 上午11:43
下一篇 2025年12月16日 下午2:55

相关推荐

  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    7500
  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    4200
  • 大模型评测实战:从Benchmark幻象到业务落地的量化艺术

    当我们谈论大模型应用开发时,评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题,却又充满了难以量化的灰色地带。这篇文章,聊聊在实践中对评测的一些观察与思考。 为什么公开Benchmark的参考价值有限 各家模型发布时,漂亮的Benchmark数据总是标配。如果仅看这些数字,似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

    2026年1月8日
    8800
  • Kimi-K2.5-Thinking实测:推理效率提升33%,Agent能力意外滑坡,开源模型新标杆?

    月之暗面发布了 Kimi-K2.5-Thinking 新版本,官方称其为“Kimi迄今最智能的模型”,在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成…

    3天前
    12800
  • GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

    智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。 在这场激烈的竞争中,GLM-4.6交出了一…

    2025年10月17日
    39800