GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

2025年11月27日下午12:30 • 大模型评测 • 阅读 190

OpenAI近期发布了新版本GPT-5.1，其中GPT-5.1-high作为高性能思考模式（thinking）的旗舰产品，主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”，可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GPT-5.1-high版本表现：
* 测试题数：约1.5万
* 【总分】准确率：69.7%
* 平均耗时（每次调用）：117s
* 平均消耗token（每次调用）：2745
* 花费/千次调用（元）：180

1、GPT-5.1-high vs GPT-5对比

首先对比上个版本（GPT-5-2025-08-07），数据如下：

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

整体性能微幅提升：新版本准确率从68.9%提升至69.7%，仅增长0.8个百分点，排名从第7位升至第4位。这一提升幅度相比成本增加来说显得微不足道。
推理能力大幅增强：思考模式的核心优势体现在“推理与数学计算”领域，从74.7%大幅提升至84.7%，增幅达10.0个百分点，这是所有领域中提升最显著的。
部分专业领域有所改善：“医疗与心理健康”从75.6%升至77.6%（+2.0%），“金融”从71.3%升至72.6%（+1.3%），“法律与行政公务”从73.7%升至75.0%（+1.3%），“agent与工具调用”从57.8%升至59.2%（+1.4%），多个实用领域略有增强。
语言理解能力严重下滑：最令人担忧的是，“语言与指令遵从”从75.6%跌至67.0%，降幅达8.6个百分点。“教育”领域也从51.0%降至48.5%（-2.5%）。这表明高强度思考模式在提升推理能力的同时，削弱了对基础指令的精准理解和遵从能力。
Token消耗剧增：每次调用平均消耗token从630增至2745，增幅达336%。这是高级思考模式的代价，模型需要输出大量“思考过程”来完成深度推理。
响应时间大幅延长：平均耗时从72s增加至117s，增幅62%。虽然比medium模式（160s）快，但仍远慢于传统模型，用户需要等待近2分钟才能获得答案。
成本暴涨难以接受：每千次调用费用从31.9元飙升至180元，成本增加464%（接近5.6倍）。这是所有评测的模型中最昂贵的之一，而准确率提升仅0.8个百分点，成本效率比失衡。

2、对比其他模型

在当前主流大模型竞争格局中，GPT-5.1-high表现如何？我们从多个维度进行横向对比分析：

数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

最昂贵的选择之一：GPT-5.1-high以180元/千次的成本成为评测中第三昂贵的产品，仅次于gemini-3-pro-preview的247.3元和claude-sonnet-4.5-thinking的305.1元。
成本效率比低：对比排名相近的模型，o4-mini以40.3元获得69.0%准确率（排名6），准确率仅低0.7个百分点，但成本仅为GPT-5.1-high的22%，成本效率比是其4.5倍。
与同厂产品对比优势低：GPT-5.1-medium以87.9元获得69.3%准确率（排名5），成本仅为high版本的49%，准确率仅低0.4个百分点。GPT-5-2025-08-07以31.9元获得68.9%准确率（排名7），成本仅为high版本的18%，准确率仅低0.8个百分点。

开源vs闭源对比

被开源模型碾压：从总分情况来看，DeepSeek-V3.2-Exp-Think以70.1%准确率和6.1元/千次成本位居第3，准确率反超0.4个百分点，成本却仅为GPT-5.1-high的3.4%。
开源思考模型群体优势明显：DeepSeek-V3.1-Think（67.7%，24.8元，排名12）、DeepSeek-R1-0528（65.9%，48元，排名24）、qwen3-235b-a22b-thinking-2507（65.5%，61.2元，排名25）等开源模型虽然准确率略低，但成本优势极其显著。即使是性能相近的模型，开源方案的成本也仅为GPT-5.1-high的四分之一甚至更低。
Token效率中等偏高：2745的平均token消耗在思考模型中处于中高水平，高于doubao-seed-1-6-thinking-250715（2162）、DeepSeek-V3.2-Exp-Think（2106）、DeepSeek-V3.1-Think（2191）、ERNIE-X1.1-Preview（2505）、grok-4-1-fast-reasoning（2492），但低于claude-sonnet-4.5-thinking（3070）、ERNIE-5.0-Thinking-Preview（3202）、DeepSeek-R1-0528（3077）、qwen3-235b-a22b-thinking-2507（3422）和Kimi-K2-Thinking（5732）。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14599

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

1、GPT-5.1-high vs GPT-5对比

2、对比其他模型

同成本档位对比

开源vs闭源对比

相关推荐

ERNIE-5.0思考模式预览版深度评测：推理能力跃升67.5%，但成本激增40倍引发效率挑战

AI Agent独立复现顶会论文能力大揭秘：OpenAI PaperBench基准测试深度解析

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

VitaBench评测揭示AI智能体真实应用瓶颈：跨场景成功率仅30%，三大维度量化任务复杂性

大模型编程应用测试-V3榜单：以工程应用标准量化模型能力