GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GPT-5.1-high版本表现:
* 测试题数:约1.5万
* 【总分】准确率:69.7%
* 平均耗时(每次调用):117s
* 平均消耗token(每次调用):2745
* 花费/千次调用(元):180

1、GPT-5.1-high vs GPT-5对比

首先对比上个版本(GPT-5-2025-08-07),数据如下:

GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议
GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

  • 整体性能微幅提升:新版本准确率从68.9%提升至69.7%,仅增长0.8个百分点,排名从第7位升至第4位。这一提升幅度相比成本增加来说显得微不足道。
  • 推理能力大幅增强:思考模式的核心优势体现在“推理与数学计算”领域,从74.7%大幅提升至84.7%,增幅达10.0个百分点,这是所有领域中提升最显著的。
  • 部分专业领域有所改善:“医疗与心理健康”从75.6%升至77.6%(+2.0%),“金融”从71.3%升至72.6%(+1.3%),“法律与行政公务”从73.7%升至75.0%(+1.3%),“agent与工具调用”从57.8%升至59.2%(+1.4%),多个实用领域略有增强。
  • 语言理解能力严重下滑:最令人担忧的是,“语言与指令遵从”从75.6%跌至67.0%,降幅达8.6个百分点。“教育”领域也从51.0%降至48.5%(-2.5%)。这表明高强度思考模式在提升推理能力的同时,削弱了对基础指令的精准理解和遵从能力。
  • Token消耗剧增:每次调用平均消耗token从630增至2745,增幅达336%。这是高级思考模式的代价,模型需要输出大量“思考过程”来完成深度推理。
  • 响应时间大幅延长:平均耗时从72s增加至117s,增幅62%。虽然比medium模式(160s)快,但仍远慢于传统模型,用户需要等待近2分钟才能获得答案。
  • 成本暴涨难以接受:每千次调用费用从31.9元飙升至180元,成本增加464%(接近5.6倍)。这是所有评测的模型中最昂贵的之一,而准确率提升仅0.8个百分点,成本效率比失衡。

2、对比其他模型

在当前主流大模型竞争格局中,GPT-5.1-high表现如何?我们从多个维度进行横向对比分析:

GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 最昂贵的选择之一:GPT-5.1-high以180元/千次的成本成为评测中第三昂贵的产品,仅次于gemini-3-pro-preview的247.3元和claude-sonnet-4.5-thinking的305.1元。
  • 成本效率比低:对比排名相近的模型,o4-mini以40.3元获得69.0%准确率(排名6),准确率仅低0.7个百分点,但成本仅为GPT-5.1-high的22%,成本效率比是其4.5倍。
  • 与同厂产品对比优势低:GPT-5.1-medium以87.9元获得69.3%准确率(排名5),成本仅为high版本的49%,准确率仅低0.4个百分点。GPT-5-2025-08-07以31.9元获得68.9%准确率(排名7),成本仅为high版本的18%,准确率仅低0.8个百分点。

开源vs闭源对比

  • 被开源模型碾压:从总分情况来看,DeepSeek-V3.2-Exp-Think以70.1%准确率和6.1元/千次成本位居第3,准确率反超0.4个百分点,成本却仅为GPT-5.1-high的3.4%。
  • 开源思考模型群体优势明显:DeepSeek-V3.1-Think(67.7%,24.8元,排名12)、DeepSeek-R1-0528(65.9%,48元,排名24)、qwen3-235b-a22b-thinking-2507(65.5%,61.2元,排名25)等开源模型虽然准确率略低,但成本优势极其显著。即使是性能相近的模型,开源方案的成本也仅为GPT-5.1-high的四分之一甚至更低。
  • Token效率中等偏高:2745的平均token消耗在思考模型中处于中高水平,高于doubao-seed-1-6-thinking-250715(2162)、DeepSeek-V3.2-Exp-Think(2106)、DeepSeek-V3.1-Think(2191)、ERNIE-X1.1-Preview(2505)、grok-4-1-fast-reasoning(2492),但低于claude-sonnet-4.5-thinking(3070)、ERNIE-5.0-Thinking-Preview(3202)、DeepSeek-R1-0528(3077)、qwen3-235b-a22b-thinking-2507(3422)和Kimi-K2-Thinking(5732)。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14599

(0)
上一篇 2025年11月27日 下午12:23
下一篇 2025年11月27日 下午3:41

相关推荐

  • MiniMax M2.1深度实测:全栈开发新利器,从人生K线图到iOS木鱼App的代码生成实战

    国产 AI 大模型 MiniMax M2.1 正式发布。 本次更新在 Multi-SWE(多软件工程)领域实现了显著升级。它不仅让 Web 开发、App 开发以及 Rust、Go、Java 等核心技术栈的开发体验更为流畅,其全栈能力也得到了大幅增强。 一个突出的亮点在于其能力的均衡性。 此前许多 AI 模型,包括近期备受关注的 Gemini 3 Pro,往往…

    2025年12月25日
    41200
  • 大模型评测框架全景解析:如何选择适合你的测试工具?

    在大模型技术快速迭代的今天,我们面临一个共同的挑战:如何客观、全面地评测一个模型的真实能力? 这不仅关乎技术指标的高低,更涉及模型在实际应用中能否真正解决问题。 大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营,各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是,评测正从单一维度的“跑分”走向多…

    2025年11月14日
    78500
  • DeepEval开源方案:用LLM合成数据,90%成本锐减,评测效率飙升

    测试LLM输出效果,离不开大量数据集。从零开始准备这些数据,费时、烧钱,还特别折腾。但现在情况不一样了:以前要花几周手工打造的数千条测试用例,现在几分钟就搞定。 合成数据生成的核心思路很简单:让LLM自己造数据,省掉收集、清洗、标注这些苦力活。有了GPT-4等这样的模型,合成出来的数据集比人工标注的更全面、更多样,速度还快得多。这些数据可以用来给LLM系统做…

    2025年10月24日
    1.3K00
  • AI首次跨过门萨智商门槛:GPT-5.5 Pro文本IQ 130,视觉IQ 145,人类最高智商俱乐部迎来首位非人类成员

    1946年至今,「人类最高智商俱乐部」门萨即将首次迎来一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro的文本智商达到130,恰好踩上门萨会员线;视觉智商更是飙升至145,直接杀入天才区。就在一年前,「LLM过不了130」还是技术圈的普遍共识,如今这堵墙被彻底砸碎! 这是AI第一次正式跨越门萨的入会门槛。 门萨130这道墙,这一脚踢得最…

    2026年4月26日
    66000
  • AI Agent评测进入下半场:从“看答案”到“看行动”,Claw-Eval如何防止系统放水?

    今天的 AI Agent 越来越像能真正干活的数字员工:可以调用 API、查询数据库、撰写邮件、修改代码、安排日程、生成报表。但真正的难题并非它“会不会说”,而是两个更实际的问题:它到底有没有真正完成任务?以及我们用来测试它的任务,是否还代表当下真实世界最重要的工作流程? Claw-Eval 回答了前者,Claw-Eval-Live 回答了后者。前者解决的是…

    2026年5月11日
    28100