GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。

GPT-5.2-Medium版本表现:
* 测试题数:约1.5万
* 总分(准确率):64.3%
* 平均耗时(每次调用):29s
* 平均Token(每次调用消耗的Token):922
* 平均花费(每千次调用的人民币花费):70.8

1、新旧版本对比

首先对比上个版本(GPT-5.1-Medium),数据如下:

GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测
GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能明显下滑:新版本总分准确率从69.3%下降至64.3%,下滑了5.0个百分点,排名从第7位大幅降至第38位,下降了31个位次。
  • 多数专业领域出现回落:推理与数学计算能力下降显著,从84.7%降至78.0%(-6.7%);语言与指令遵从从67.0%降至60.2%(-6.8%);Agent与工具调用从59.2%降至50.9%(-8.3%);法律与行政公务从75.0%降至71.0%(-4.0%)。
  • 响应速度大幅提升:平均耗时从160s大幅缩短至29s,提升了约82%,速度提升接近五倍,用户体验显著改善。
  • Token效率显著优化:每次调用的平均Token消耗从1448降至922,减少了约36%,推理过程更加精简。
  • 成本有所下降:虽然输出价格从71.0元/M token上调至99.4元/M token,但由于Token消耗减少,每千次调用的费用从87.9元降至70.8元,成本下降约19%。

2、对比其他新模型

在当前主流大模型竞争格局中,GPT-5.2-Medium表现如何?我们选择了具有代表性的模型进行横向对比分析:

GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 中高成本区间竞争力不足:GPT-5.2-Medium每千次调用成本70.8元,处于中高成本区间,但从总分来看,64.3%的准确率在该成本段明显缺乏竞争力。
* 相近成本下表现落后:从总分情况来看,ERNIE-5.0-Thinking-Preview(72.5元,67.5%)、Qwen3-235B-A22B-Thinking-2507(61.2元,65.5%)均以相近成本实现更高的总分准确率。
* 低成本模型表现突出:Qwen3-Max-2025-09-23(23.4元,66.8%)以三分之一的成本实现更高准确率;DeepSeek-V3.2-Think(7.5元,70.9%)以不到十分之一的成本实现显著更高的准确率,成本效率比差距悬殊。

新旧模型对比:
* OpenAI产品线内部倒退:GPT-5.2-Medium(64.3%)不仅低于GPT-5.1-Medium(69.3%),也低于更早的o4-mini(69.0%)和GPT-5-2025-08-07(68.9%),在OpenAI自家产品线中处于较低位置。
* 落后于主流厂商新品:GPT-5.2-Medium(64.3%)在各厂商近期发布的新模型中处于中下游位置,低于Google的Gemini-3-Pro-Preview(72.5%)、腾讯的Hunyuan-2.0-Thinking-20251109(71.9%)、深度求索的DeepSeek-V3.2-Think(70.9%)等主流新品。
* 速度优势突出:29s的响应时间在所有对比模型中表现优异,仅次于Hunyuan-2.0-Thinking-20251109(28s),比自家GPT-5.1-Medium(160s)快了五倍以上。

开源VS闭源对比:
* 开源模型在本次评测中表现突出:DeepSeek-V3.2-Think(7.5元,70.9%)、DeepSeek-V3.2-Exp-Think(6.1元,70.1%)、GLM-4.6(37.6元,68.1%)等开源模型在总分准确率和成本两个维度均优于GPT-5.2-Medium。
* 准确率差距值得关注:在本次中文综合能力评测中,头部开源模型与GPT-5.2-Medium的准确率差距达到4-6个百分点,但需注意本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同。
* 速度优势明显:GPT-5.2-Medium的29s响应时间是其核心竞争力之一,明显快于DeepSeek-V3.2-Think(144s)、Qwen3-235B-A22B-Thinking-2507(143s)等开源思考模型,在对延迟敏感的应用场景中仍具实用价值。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14492

(0)
上一篇 2025年12月17日 上午8:27
下一篇 2025年12月17日 下午1:01

相关推荐

  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    23400
  • MiniMax M2.1深度实测:全栈开发新利器,从人生K线图到iOS木鱼App的代码生成实战

    国产 AI 大模型 MiniMax M2.1 正式发布。 本次更新在 Multi-SWE(多软件工程)领域实现了显著升级。它不仅让 Web 开发、App 开发以及 Rust、Go、Java 等核心技术栈的开发体验更为流畅,其全栈能力也得到了大幅增强。 一个突出的亮点在于其能力的均衡性。 此前许多 AI 模型,包括近期备受关注的 Gemini 3 Pro,往往…

    2025年12月25日
    18000
  • Gemini 3.1 Flash Lite评测:推理速度创5秒新低,指令遵循能力意外强劲

    核心结论:为高速响应与高效执行而生的轻量化模型 概述 Gemini 3.1 Flash Lite(下称Lite)在响应速度上实现了显著突破。其前代模型曾创下平均10秒的极速应答纪录,而新版Lite将非推理模式下的平均应答时间进一步缩短至5秒新低。对于简单问题,其响应近乎瞬时。 在推理能力方面,Lite展现出与其“轻量”定位不符的潜力。其推理模式可支持高达45…

    2026年3月5日
    17400
  • BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

    01|“看懂世界”这关,大模型还没上幼儿园 过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

    2026年1月12日
    18700
  • 腾讯混元HY 2.0 Think深度评测:思考能力初显,但前端实现仍欠火候

    混元大模型近期推出了HY 2.0 Think版本,其核心特性是深度思考能力。我们使用一套前端评测用例,对其代码生成能力进行了测试。 常规用例评测 这部分用例与之前的DeepSeek V3.2评测保持一致,旨在快速评估其整体水平。 (1) 复古打印机 核心功能完整实现,打字效果富有节奏感。卡片拖拽功能正常,页面风格也体现了复古韵味。 (2) 双栏响应式Hero…

    2025年12月10日
    56000