ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。

ERNIE-5.0-Thinking-Preview版本表现:
* 测试题数:约1.5万
* 【总分】准确率:67.5%
* 平均耗时(每次调用):301秒
* 平均消耗Token(每次调用):3202
* 花费/千次调用(元):72.5

1、新旧版本对比

首先对比之前的ERNIE-4.5-Turbo-32K。从细分能力来看:

ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战
ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 准确率大幅提升:新版本准确率从61.1%跃升至67.5%,提升了6.4个百分点,排名从第48位大幅跃升到第15位,实现了质的突破。
  • 推理能力显著增强:在“推理与数学计算”领域,从55.9%提升至74.0%,增幅高达18.1个百分点,体现了思维链技术的核心价值。
  • 专业领域表现分化:在“法律与行政公务”从81.5%提升至82.3%(+0.8%),但在“医疗与心理健康”从91.6%下降至76.0%(-15.6%),“金融”从85.8%下降至74.1%(-11.7%),显示出thinking模式在不同领域的适应性差异。
  • 成本结构剧变:每千次调用成本从1.8元增至72.5元,增幅达40倍;平均Token消耗从713增加至3202,增幅达349%;响应时间从66秒延长至301秒,增加了4.6倍。这些数据清晰反映了思维链技术带来的资源消耗代价。

2、对比其他新模型

在当前主流大模型竞争格局中,ERNIE-5.0-Thinking-Preview的市场定位如何?我们从多个维度进行深入分析:

ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 竞争态势严峻:ERNIE-5.0-Thinking-Preview(72.5元)与Kimi-K2-Thinking(89.2元)处于同一成本区间,准确率67.5% vs 67.9%,成本效率相近。而该档位的标杆产品GPT-5.1-medium花费87.9元,准确率达69.3%,领先1.8个百分点。
* 成本效率比挑战:豆包的doubao-seed-1-6-thinking-250715以15.6元的成本实现了71.7%的准确率,成本仅为ERNIE-5.0-Thinking-Preview的21.5%,但准确率却高出4.2个百分点,形成了巨大的成本效率比落差。

Thinking产品对比
* 与顶级thinking产品差距显著:gemini-3-pro-preview以72.5%的准确率领跑thinking赛道,领先ERNIE-5.0-Thinking-Preview达5.0个百分点。doubao-seed-1-6-thinking-250715(71.7%)也有4.2个百分点的优势。
* 成本控制亟待优化:DeepSeek-V3.2-Exp-Think以70.1%的准确率、6.1元的成本树立了thinking产品的成本效率比标杆,ERNIE-5.0-Thinking-Preview在准确率落后2.6个百分点的情况下,成本却高出11.9倍,暴露出较重的成本效率问题。

开源VS闭源对比
* 闭源阵营表现
* 整体领先但分化严重:排名前6位多数为闭源产品,其中Google的gemini-3-pro-preview(72.5%)、豆包的doubao-seed-1-6-thinking-250715(71.7%)和OpenAI的GPT-5.1系列占据主导地位。ERNIE-5.0-Thinking-Preview在闭源产品中排名靠后。
* 闭源产品内部竞争激烈:作为闭源产品,ERNIE-5.0-Thinking-Preview不仅要面对Google、OpenAI等国际巨头的压力,还要应对豆包等国内竞品的挑战。在准确率相近的情况下,成本控制能力成为关键差异化因素。
* 开源阵营表现
* 快速追赶:开源产品中,DeepSeek-V3.2-Exp-Think(70.1%,排名第3)已经接近顶级闭源产品,智谱GLM-4.6(68.1%,排名第10)和DeepSeek-V3.1-Think(67.7%,排名第12)也展现出强劲实力。
* 成本优势突出:开源thinking产品普遍具有成本优势,DeepSeek-V3.2-Exp-Think(6.1元)、DeepSeek-V3.1-Think(24.8元)、GLM-4.6(37.6元)的成本都远低于ERNIE-5.0-Thinking-Preview的72.5元。
* 闭源产品的成本压力:在开源产品快速进步的背景下,ERNIE-5.0-Thinking-Preview作为闭源产品,既未能在准确率上建立足够优势(仅高于GLM-4.6的0.6个百分点),也未能在成本上保持竞争力(是GLM-4.6的1.9倍),市场定位面临挑战。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14595

(0)
上一篇 2025年11月28日 上午11:58
下一篇 2025年11月28日 下午12:50

相关推荐

  • 文心一言5.0正式版深度评测:国产大模型如何突破算力桎梏,在多模态赛道站稳脚跟?

    核心结论: 文心一言5.0正式版在预览版基础上进行了针对性打磨,整体可用性有所提升,在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性,但算力消耗与上下文幻觉问题仍是主要挑战。 逻辑能力表现:注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。注2:题目及测试方式,参见《大语言模型逻辑能力横评(25年12月榜)》,新增#55…

    2026年1月23日
    5300
  • 评测驱动时代开启:李飞飞World Labs联手光轮智能,破解具身智能规模化评测难题

    最火世界模型,最火具身智能基建,联手了! 前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。 具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。 而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。 在这个赛道上,光轮智能基于全栈自研仿真技术体系所构…

    2026年1月19日
    6700
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    6800
  • Kimi-K2.5-Thinking实测:推理效率提升33%,Agent能力意外滑坡,开源模型新标杆?

    月之暗面发布了 Kimi-K2.5-Thinking 新版本,官方称其为“Kimi迄今最智能的模型”,在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成…

    4天前
    12800
  • 无需微调,Poetiq元系统让GPT-5.2推理准确率飙升至75%,创ARC-AGI-2新纪录

    什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。 在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI 的智力表现原地暴涨一截。在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后,有人得出了这样的结论。 近日,Poetiq 表示其使用 ARC-AGI-2 测试…

    2025年12月25日
    8800