ERNIE-5.0思考模式预览版深度评测：推理能力跃升67.5%，但成本激增40倍引发效率挑战

2025年11月28日下午12:26 • 大模型评测 • 阅读 184

百度近期发布了ERNIE-5.0-Thinking-Preview（思考模式预览版），作为文心系列的新产品，该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。

ERNIE-5.0-Thinking-Preview版本表现：
* 测试题数：约1.5万
* 【总分】准确率：67.5%
* 平均耗时（每次调用）：301秒
* 平均消耗Token（每次调用）：3202
* 花费/千次调用（元）：72.5

1、新旧版本对比

首先对比之前的ERNIE-4.5-Turbo-32K。从细分能力来看：

ERNIE-5.0思考模式预览版深度评测：推理能力跃升67.5%，但成本激增40倍引发效率挑战

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

准确率大幅提升：新版本准确率从61.1%跃升至67.5%，提升了6.4个百分点，排名从第48位大幅跃升到第15位，实现了质的突破。
推理能力显著增强：在“推理与数学计算”领域，从55.9%提升至74.0%，增幅高达18.1个百分点，体现了思维链技术的核心价值。
专业领域表现分化：在“法律与行政公务”从81.5%提升至82.3%（+0.8%），但在“医疗与心理健康”从91.6%下降至76.0%（-15.6%），“金融”从85.8%下降至74.1%（-11.7%），显示出thinking模式在不同领域的适应性差异。
成本结构剧变：每千次调用成本从1.8元增至72.5元，增幅达40倍；平均Token消耗从713增加至3202，增幅达349%；响应时间从66秒延长至301秒，增加了4.6倍。这些数据清晰反映了思维链技术带来的资源消耗代价。

2、对比其他新模型

在当前主流大模型竞争格局中，ERNIE-5.0-Thinking-Preview的市场定位如何？我们从多个维度进行深入分析：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 竞争态势严峻：ERNIE-5.0-Thinking-Preview（72.5元）与Kimi-K2-Thinking（89.2元）处于同一成本区间，准确率67.5% vs 67.9%，成本效率相近。而该档位的标杆产品GPT-5.1-medium花费87.9元，准确率达69.3%，领先1.8个百分点。
* 成本效率比挑战：豆包的doubao-seed-1-6-thinking-250715以15.6元的成本实现了71.7%的准确率，成本仅为ERNIE-5.0-Thinking-Preview的21.5%，但准确率却高出4.2个百分点，形成了巨大的成本效率比落差。

Thinking产品对比
* 与顶级thinking产品差距显著：gemini-3-pro-preview以72.5%的准确率领跑thinking赛道，领先ERNIE-5.0-Thinking-Preview达5.0个百分点。doubao-seed-1-6-thinking-250715（71.7%）也有4.2个百分点的优势。
* 成本控制亟待优化：DeepSeek-V3.2-Exp-Think以70.1%的准确率、6.1元的成本树立了thinking产品的成本效率比标杆，ERNIE-5.0-Thinking-Preview在准确率落后2.6个百分点的情况下，成本却高出11.9倍，暴露出较重的成本效率问题。

开源VS闭源对比
* 闭源阵营表现：
* 整体领先但分化严重：排名前6位多数为闭源产品，其中Google的gemini-3-pro-preview（72.5%）、豆包的doubao-seed-1-6-thinking-250715（71.7%）和OpenAI的GPT-5.1系列占据主导地位。ERNIE-5.0-Thinking-Preview在闭源产品中排名靠后。
* 闭源产品内部竞争激烈：作为闭源产品，ERNIE-5.0-Thinking-Preview不仅要面对Google、OpenAI等国际巨头的压力，还要应对豆包等国内竞品的挑战。在准确率相近的情况下，成本控制能力成为关键差异化因素。
* 开源阵营表现：
* 快速追赶：开源产品中，DeepSeek-V3.2-Exp-Think（70.1%，排名第3）已经接近顶级闭源产品，智谱GLM-4.6（68.1%，排名第10）和DeepSeek-V3.1-Think（67.7%，排名第12）也展现出强劲实力。
* 成本优势突出：开源thinking产品普遍具有成本优势，DeepSeek-V3.2-Exp-Think（6.1元）、DeepSeek-V3.1-Think（24.8元）、GLM-4.6（37.6元）的成本都远低于ERNIE-5.0-Thinking-Preview的72.5元。
* 闭源产品的成本压力：在开源产品快速进步的背景下，ERNIE-5.0-Thinking-Preview作为闭源产品，既未能在准确率上建立足够优势（仅高于GLM-4.6的0.6个百分点），也未能在成本上保持竞争力（是GLM-4.6的1.9倍），市场定位面临挑战。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14595

ERNIE-5.0思考模式预览版深度评测：推理能力跃升67.5%，但成本激增40倍引发效率挑战

1、新旧版本对比

2、对比其他新模型

相关推荐

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

通用大模型工业考试翻车，IndustryGPT三场全胜揭示制造业AI新方向

大模型评测框架全景解析：如何选择适合你的测试工具？

AI Agent评测体系全景：如何衡量智能体的真实能力？

超越准确率：揭秘AI Agent评测的三大真相与行为分析革命