ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。

ERNIE-5.0-Thinking-Preview版本表现:
* 测试题数:约1.5万
* 【总分】准确率:67.5%
* 平均耗时(每次调用):301秒
* 平均消耗Token(每次调用):3202
* 花费/千次调用(元):72.5

1、新旧版本对比

首先对比之前的ERNIE-4.5-Turbo-32K。从细分能力来看:

ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战
ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 准确率大幅提升:新版本准确率从61.1%跃升至67.5%,提升了6.4个百分点,排名从第48位大幅跃升到第15位,实现了质的突破。
  • 推理能力显著增强:在“推理与数学计算”领域,从55.9%提升至74.0%,增幅高达18.1个百分点,体现了思维链技术的核心价值。
  • 专业领域表现分化:在“法律与行政公务”从81.5%提升至82.3%(+0.8%),但在“医疗与心理健康”从91.6%下降至76.0%(-15.6%),“金融”从85.8%下降至74.1%(-11.7%),显示出thinking模式在不同领域的适应性差异。
  • 成本结构剧变:每千次调用成本从1.8元增至72.5元,增幅达40倍;平均Token消耗从713增加至3202,增幅达349%;响应时间从66秒延长至301秒,增加了4.6倍。这些数据清晰反映了思维链技术带来的资源消耗代价。

2、对比其他新模型

在当前主流大模型竞争格局中,ERNIE-5.0-Thinking-Preview的市场定位如何?我们从多个维度进行深入分析:

ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 竞争态势严峻:ERNIE-5.0-Thinking-Preview(72.5元)与Kimi-K2-Thinking(89.2元)处于同一成本区间,准确率67.5% vs 67.9%,成本效率相近。而该档位的标杆产品GPT-5.1-medium花费87.9元,准确率达69.3%,领先1.8个百分点。
* 成本效率比挑战:豆包的doubao-seed-1-6-thinking-250715以15.6元的成本实现了71.7%的准确率,成本仅为ERNIE-5.0-Thinking-Preview的21.5%,但准确率却高出4.2个百分点,形成了巨大的成本效率比落差。

Thinking产品对比
* 与顶级thinking产品差距显著:gemini-3-pro-preview以72.5%的准确率领跑thinking赛道,领先ERNIE-5.0-Thinking-Preview达5.0个百分点。doubao-seed-1-6-thinking-250715(71.7%)也有4.2个百分点的优势。
* 成本控制亟待优化:DeepSeek-V3.2-Exp-Think以70.1%的准确率、6.1元的成本树立了thinking产品的成本效率比标杆,ERNIE-5.0-Thinking-Preview在准确率落后2.6个百分点的情况下,成本却高出11.9倍,暴露出较重的成本效率问题。

开源VS闭源对比
* 闭源阵营表现
* 整体领先但分化严重:排名前6位多数为闭源产品,其中Google的gemini-3-pro-preview(72.5%)、豆包的doubao-seed-1-6-thinking-250715(71.7%)和OpenAI的GPT-5.1系列占据主导地位。ERNIE-5.0-Thinking-Preview在闭源产品中排名靠后。
* 闭源产品内部竞争激烈:作为闭源产品,ERNIE-5.0-Thinking-Preview不仅要面对Google、OpenAI等国际巨头的压力,还要应对豆包等国内竞品的挑战。在准确率相近的情况下,成本控制能力成为关键差异化因素。
* 开源阵营表现
* 快速追赶:开源产品中,DeepSeek-V3.2-Exp-Think(70.1%,排名第3)已经接近顶级闭源产品,智谱GLM-4.6(68.1%,排名第10)和DeepSeek-V3.1-Think(67.7%,排名第12)也展现出强劲实力。
* 成本优势突出:开源thinking产品普遍具有成本优势,DeepSeek-V3.2-Exp-Think(6.1元)、DeepSeek-V3.1-Think(24.8元)、GLM-4.6(37.6元)的成本都远低于ERNIE-5.0-Thinking-Preview的72.5元。
* 闭源产品的成本压力:在开源产品快速进步的背景下,ERNIE-5.0-Thinking-Preview作为闭源产品,既未能在准确率上建立足够优势(仅高于GLM-4.6的0.6个百分点),也未能在成本上保持竞争力(是GLM-4.6的1.9倍),市场定位面临挑战。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14595

(0)
上一篇 2025年11月28日 上午11:58
下一篇 2025年11月28日 下午12:50

相关推荐

  • SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

    如今,大模型在理解、推理、编程等方面表现突出,但AI的“科学通用能力” (SGI) 尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力 (如学科问答、单步工具操作) ,难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型 (PIM) ,将科学探究拆解为四个循环阶段,并与AI能力维度对应: 审思/…

    2025年12月27日
    96700
  • 豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

    豆包近期发布了 doubao-seed-1-8-251215 新版本,官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。 doubao-seed-…

    2025年12月20日
    2.1K00
  • GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

    蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架 蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。…

    2025年12月29日
    20900
  • GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用

    OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…

    2025年12月13日
    24400
  • GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

    OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

    2025年11月27日
    19000