百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。
ERNIE-5.0-Thinking-Preview版本表现:
* 测试题数:约1.5万
* 【总分】准确率:67.5%
* 平均耗时(每次调用):301秒
* 平均消耗Token(每次调用):3202
* 花费/千次调用(元):72.5
1、新旧版本对比
首先对比之前的ERNIE-4.5-Turbo-32K。从细分能力来看:


数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
- 准确率大幅提升:新版本准确率从61.1%跃升至67.5%,提升了6.4个百分点,排名从第48位大幅跃升到第15位,实现了质的突破。
- 推理能力显著增强:在“推理与数学计算”领域,从55.9%提升至74.0%,增幅高达18.1个百分点,体现了思维链技术的核心价值。
- 专业领域表现分化:在“法律与行政公务”从81.5%提升至82.3%(+0.8%),但在“医疗与心理健康”从91.6%下降至76.0%(-15.6%),“金融”从85.8%下降至74.1%(-11.7%),显示出thinking模式在不同领域的适应性差异。
- 成本结构剧变:每千次调用成本从1.8元增至72.5元,增幅达40倍;平均Token消耗从713增加至3202,增幅达349%;响应时间从66秒延长至301秒,增加了4.6倍。这些数据清晰反映了思维链技术带来的资源消耗代价。
2、对比其他新模型
在当前主流大模型竞争格局中,ERNIE-5.0-Thinking-Preview的市场定位如何?我们从多个维度进行深入分析:

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
* 竞争态势严峻:ERNIE-5.0-Thinking-Preview(72.5元)与Kimi-K2-Thinking(89.2元)处于同一成本区间,准确率67.5% vs 67.9%,成本效率相近。而该档位的标杆产品GPT-5.1-medium花费87.9元,准确率达69.3%,领先1.8个百分点。
* 成本效率比挑战:豆包的doubao-seed-1-6-thinking-250715以15.6元的成本实现了71.7%的准确率,成本仅为ERNIE-5.0-Thinking-Preview的21.5%,但准确率却高出4.2个百分点,形成了巨大的成本效率比落差。
Thinking产品对比
* 与顶级thinking产品差距显著:gemini-3-pro-preview以72.5%的准确率领跑thinking赛道,领先ERNIE-5.0-Thinking-Preview达5.0个百分点。doubao-seed-1-6-thinking-250715(71.7%)也有4.2个百分点的优势。
* 成本控制亟待优化:DeepSeek-V3.2-Exp-Think以70.1%的准确率、6.1元的成本树立了thinking产品的成本效率比标杆,ERNIE-5.0-Thinking-Preview在准确率落后2.6个百分点的情况下,成本却高出11.9倍,暴露出较重的成本效率问题。
开源VS闭源对比
* 闭源阵营表现:
* 整体领先但分化严重:排名前6位多数为闭源产品,其中Google的gemini-3-pro-preview(72.5%)、豆包的doubao-seed-1-6-thinking-250715(71.7%)和OpenAI的GPT-5.1系列占据主导地位。ERNIE-5.0-Thinking-Preview在闭源产品中排名靠后。
* 闭源产品内部竞争激烈:作为闭源产品,ERNIE-5.0-Thinking-Preview不仅要面对Google、OpenAI等国际巨头的压力,还要应对豆包等国内竞品的挑战。在准确率相近的情况下,成本控制能力成为关键差异化因素。
* 开源阵营表现:
* 快速追赶:开源产品中,DeepSeek-V3.2-Exp-Think(70.1%,排名第3)已经接近顶级闭源产品,智谱GLM-4.6(68.1%,排名第10)和DeepSeek-V3.1-Think(67.7%,排名第12)也展现出强劲实力。
* 成本优势突出:开源thinking产品普遍具有成本优势,DeepSeek-V3.2-Exp-Think(6.1元)、DeepSeek-V3.1-Think(24.8元)、GLM-4.6(37.6元)的成本都远低于ERNIE-5.0-Thinking-Preview的72.5元。
* 闭源产品的成本压力:在开源产品快速进步的背景下,ERNIE-5.0-Thinking-Preview作为闭源产品,既未能在准确率上建立足够优势(仅高于GLM-4.6的0.6个百分点),也未能在成本上保持竞争力(是GLM-4.6的1.9倍),市场定位面临挑战。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14595
