OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
GPT-5.1-high版本表现:
* 测试题数:约1.5万
* 【总分】准确率:69.7%
* 平均耗时(每次调用):117s
* 平均消耗token(每次调用):2745
* 花费/千次调用(元):180
1、GPT-5.1-high vs GPT-5对比
首先对比上个版本(GPT-5-2025-08-07),数据如下:


数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
- 整体性能微幅提升:新版本准确率从68.9%提升至69.7%,仅增长0.8个百分点,排名从第7位升至第4位。这一提升幅度相比成本增加来说显得微不足道。
- 推理能力大幅增强:思考模式的核心优势体现在“推理与数学计算”领域,从74.7%大幅提升至84.7%,增幅达10.0个百分点,这是所有领域中提升最显著的。
- 部分专业领域有所改善:“医疗与心理健康”从75.6%升至77.6%(+2.0%),“金融”从71.3%升至72.6%(+1.3%),“法律与行政公务”从73.7%升至75.0%(+1.3%),“agent与工具调用”从57.8%升至59.2%(+1.4%),多个实用领域略有增强。
- 语言理解能力严重下滑:最令人担忧的是,“语言与指令遵从”从75.6%跌至67.0%,降幅达8.6个百分点。“教育”领域也从51.0%降至48.5%(-2.5%)。这表明高强度思考模式在提升推理能力的同时,削弱了对基础指令的精准理解和遵从能力。
- Token消耗剧增:每次调用平均消耗token从630增至2745,增幅达336%。这是高级思考模式的代价,模型需要输出大量“思考过程”来完成深度推理。
- 响应时间大幅延长:平均耗时从72s增加至117s,增幅62%。虽然比medium模式(160s)快,但仍远慢于传统模型,用户需要等待近2分钟才能获得答案。
- 成本暴涨难以接受:每千次调用费用从31.9元飙升至180元,成本增加464%(接近5.6倍)。这是所有评测的模型中最昂贵的之一,而准确率提升仅0.8个百分点,成本效率比失衡。
2、对比其他模型
在当前主流大模型竞争格局中,GPT-5.1-high表现如何?我们从多个维度进行横向对比分析:

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
- 最昂贵的选择之一:GPT-5.1-high以180元/千次的成本成为评测中第三昂贵的产品,仅次于gemini-3-pro-preview的247.3元和claude-sonnet-4.5-thinking的305.1元。
- 成本效率比低:对比排名相近的模型,o4-mini以40.3元获得69.0%准确率(排名6),准确率仅低0.7个百分点,但成本仅为GPT-5.1-high的22%,成本效率比是其4.5倍。
- 与同厂产品对比优势低:GPT-5.1-medium以87.9元获得69.3%准确率(排名5),成本仅为high版本的49%,准确率仅低0.4个百分点。GPT-5-2025-08-07以31.9元获得68.9%准确率(排名7),成本仅为high版本的18%,准确率仅低0.8个百分点。
开源vs闭源对比
- 被开源模型碾压:从总分情况来看,DeepSeek-V3.2-Exp-Think以70.1%准确率和6.1元/千次成本位居第3,准确率反超0.4个百分点,成本却仅为GPT-5.1-high的3.4%。
- 开源思考模型群体优势明显:DeepSeek-V3.1-Think(67.7%,24.8元,排名12)、DeepSeek-R1-0528(65.9%,48元,排名24)、qwen3-235b-a22b-thinking-2507(65.5%,61.2元,排名25)等开源模型虽然准确率略低,但成本优势极其显著。即使是性能相近的模型,开源方案的成本也仅为GPT-5.1-high的四分之一甚至更低。
- Token效率中等偏高:2745的平均token消耗在思考模型中处于中高水平,高于doubao-seed-1-6-thinking-250715(2162)、DeepSeek-V3.2-Exp-Think(2106)、DeepSeek-V3.1-Think(2191)、ERNIE-X1.1-Preview(2505)、grok-4-1-fast-reasoning(2492),但低于claude-sonnet-4.5-thinking(3070)、ERNIE-5.0-Thinking-Preview(3202)、DeepSeek-R1-0528(3077)、qwen3-235b-a22b-thinking-2507(3422)和Kimi-K2-Thinking(5732)。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14599
