ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

ERNIE-5.0版本表现:
* 测试题数:约1.5万
* 总分(准确率):70.9%
* 平均耗时(每次调用):225s
* 平均token(每次调用消耗的token):3897
* 平均花费(每千次调用的人民币花费):89.2

1、新旧版本对比

首先对比预览版本(ERNIE-5.0-Thinking-Preview),数据如下:

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析 ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能显著提升:正式版准确率从67.5%提升至70.9%,提升了3.4个百分点,排名从第22位跃升至第7位,提升了15个名次,实现了质的突破。
  • 专业能力全面增强:从细分领域来看,正式版在绝大多数领域都实现了提升。最突出的是“教育”领域,从50.4%提升至55.7%,增幅达5.3个百分点。“推理与数学计算能力”也从74.0%提升至78.7%,增幅4.7个百分点。
  • 医疗与金融能力优化明显:“医疗与心理健康”从76.0%提升至80.3%(+4.3%),“金融”从74.1%提升至78.8%(+4.7%),体现了正式版在专业垂直领域的能力强化。
  • 语言理解与工具调用同步提升:“语言与指令遵从”从65.9%提升至68.0%(+2.1%),“agent与工具调用”从58.4%提升至61.9%(+3.5%),智能体能力有所增强。
  • 部分领域存在权衡:值得注意的是,“法律与行政公务”领域略有下降,从82.3%降至81.7%(-0.6%),表明在整体性能提升过程中存在一定的能力权衡。
  • 响应速度大幅提升:正式版的平均耗时为225s,比预览版的301s快了约25%,用户体验有所改善。
  • Token消耗有所增加:每次调用平均消耗的token从3202增加至3897,增幅约21.7%,反映出正式版可能采用了更充分的推理过程。
  • 成本结构调整:每千次调用的费用从72.5元增加至89.2元,增幅约23%,主要由token消耗增加导致。

2、对比其他模型

在当前主流大模型竞争格局中,ERNIE-5.0表现如何?我们从同成本档位、新旧模型、开源VS闭源三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 高成本区间定位:ERNIE-5.0以89.2元/千次的调用成本位于高成本区间,与gemini-2.5-pro(189元)、gpt-5.1-high(180元)等顶级商用模型同处高消耗段。
  • 成本效率对比:在相近成本区间,gpt-5.1-medium(87.9元)准确率为69.3%,ERNIE-5.0以89.2元获得70.9%的准确率,成本相当但准确率高出1.6个百分点。与gemini-3-pro-preview(247.3元,72.5%)相比,ERNIE-5.0以约三分之一的成本达到了相近的准确率水平。
  • 与同厂商产品对比:相比ERNIE-5.0-Thinking-Preview(72.5元,67.5%),正式版在准确率提升3.4个百分点的同时,成本增加了23%,升级带来了明确的性能收益。

新旧模型对比

  • 位列新模型第一梯队:在新发布模型中,ERNIE-5.0以70.9%的准确率排名第7,位于gemini-3-pro-preview(72.5%)、hunyuan-2.0-thinking-20251109(71.9%)、doubao-seed-1-8-251215(71.7%)、doubao-seed-1-6-thinking-250715(71.7%)、GLM-4.7(71.5%)、gemini-3-flash-preview(71.5%)之后。
  • 与国际主流模型对比:从总分情况看,准确率与DeepSeek-V3.2-Think(70.9%)持平、高于gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)、o4-mini(69.0%)、gpt-5-2025-08-07(68.9%)等模型。
  • 思考模型竞争格局:作为具备思考能力的模型,ERNIE-5.0的70.9%准确率与DeepSeek-V3.2-Think持平,高于Kimi-K2-Thinking(68.3%)、qwen3-max-preview-think(68.2%),在thinking类模型中处于中上游水平。

开源VS闭源对比

  • 闭源阵营中游偏上:在商用闭源模型中,ERNIE-5.0位列gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao系列、gemini-3-flash-preview之后,与gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)形成直接竞争。
  • 与开源模型对比互有胜负:ERNIE-5.0(70.9%)低于开源模型GLM-4.7(71.5%),与DeepSeek-V3.2-Think(70.9%)持平,高于DeepSeek-V3.1-Think(67.7%)、qwen3-235b-a22b-thinking-2507(65.5%)等开源模型。
  • 响应速度对比:225s的响应时间在高性能模型中处于中等偏慢水平,快于Kimi-K2-Thinking(333s)、ERNIE-5.0-Thinking-Preview(301s),但慢于DeepSeek-V3.2-Think(144s)、gpt-5.1-high(117s)、GLM-4.7(96s)等模型。
  • Token效率待优化:3897的平均token消耗在对比模型中偏高,高于DeepSeek-V3.2-Think(2572)、gpt-5.1-high(2745)、gemini-3-pro-preview(3119),在推理效率方面仍有优化空间。

3、官方评测

百度官方公布了文心5.0在40余项权威基准测试中的综合评测结果,覆盖语言理解、视觉理解、音频处理、视觉生成等多个维度。

语言能力评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

官方将ERNIE-5.0与GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro、DeepSeek-v3.2-thinking进行了对比,评测维度涵盖知识、指令遵循、学科综合、逻辑推理、数学、代码、智能体等核心能力。

  • 知识与指令遵循:在SimpleQA、ChineseSimpleQA、IFEval、MultiChallenge、Multi-IF等基准测试中,ERNIE-5.0表现稳健,与国际顶尖模型处于同一水平。
  • 学科综合能力:在GPQA-Diamond、MMLU-Pro等综合学科测试中,ERNIE-5.0展现出较强的知识储备和推理能力。
  • 逻辑推理与数学:在ZebraLogic、BBEH、AIME 2025、HMMT 2025等高难度推理和数学测试中,各模型表现各有优劣,ERNIE-5.0整体处于竞争前列。

代码与智能体能力

在代码生成与智能体能力维度,ERNIE-5.0 在 LiveCodeBench、HumanEval+、MBPP+、TAU2-Bench、ACEBench 等一系列评测中,展现出较强的实用编程与任务执行能力。

视觉理解评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

在视觉理解维度,官方对比了 ERNIE-5.0、GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro 四款模型。

  • 理科与推理:在 MMMU-Pro、MathVista、MathVerse、MathVision、VisualPuzzle、VisuaLogic 等视觉推理测试中,ERNIE-5.0 表现出色,在多项测试中领先或持平。
  • 文档理解:在 VLMAreaBlind、CharXiv-RQ、CharXiv-DQ、DocVQA 等文档和图表理解测试中,ERNIE-5.0 展现出强大的 OCR 和文档解析能力。
  • 通用视觉问答:在 SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench 等通用视觉测试中,各模型互有胜负。
  • 视频理解:在 VideoMME、Video-MMMU、MMVU 等视频理解测试中,ERNIE-5.0 展现出全模态模型的综合优势。

音频能力评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

在音频处理维度,官方对比了 ERNIE-5.0、Gemini-3-Pro、GPT-4o-Audio 三款模型。

  • 音频理解:在 MMAU、TUT2017、CochlScene 等音频场景理解测试中,ERNIE-5.0 表现突出,多项指标领先。
  • 语音文本对话:在 VoiceBench 系列测试(AlpacaEval、CommonEval、SD-QA、MMSU、OpenBookQA、IFEval、AdvBench)中,ERNIE-5.0 展现出优秀的语音交互能力。
  • 语音识别:在 AISHELL-1、AISHELL-2、LibriSpeech、Fleurs 等语音识别测试中(数值越低越好),表现优异。

视觉生成评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

在视觉生成维度,官方对比了 ERNIE-5.0 与 Veo3、Wan2.1、Hunyuan Video 等专业生成模型。

  • 图像生成:在 GenEval 基准测试中,ERNIE-5.0 与 GPT-Image、Nano Banana Pro、Seedream 4.0、Qwen-Image 等模型对比,生成质量处于领先水平。
  • 视频生成:在视频生成评测中,ERNIE-5.0 在 Total Score、Quality Score、Semantic Score 上与专业视频生成模型 Veo3、Wan2.1 相当。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18851

(0)
上一篇 2026年1月24日 下午12:01
下一篇 2026年1月24日 下午12:50

相关推荐

  • 2024年12月大语言模型逻辑能力深度评测:15款主流模型性能横评与趋势洞察

    1 参赛选手 本次评测共包含15个模型,均为近期更新版本(按发布时间排序): 本月出榜模型:* GLM-4.6(后继版本:GLM-4.7)* MiniMax M2.1(后继版本:M2)* DeepSeek V3.2-Speciale(官方已下线)* Doubao-Seed-1.6 1015(后继版本:1.8)* DeepSeek V3.2-Exp(后继版本:…

    2025年12月26日
    12600
  • GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注

    OpenAI近期发布了GPT-5.1系列新版本,其中GPT-5.1-medium作为思考模式(thinking)的代表产品,在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快,在复杂任务上思考更久”,并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等…

    2025年11月21日
    8900
  • Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑

    XAI近期发布的Grok-4-1-fast模型提供思考模式(reasoning)和非思考模式(non-reasoning)两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本,新版本在成本控制上实现了显著优化,但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗…

    2025年11月26日
    7400
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    8100
  • Gemini 3 Pro深度评测:多模态推理模型如何重塑AI生产力边界

    昨晚,谷歌发布了Gemini 3 Pro,并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环,但对于一线用户而言,核心问题在于:它是否真正能提升生产力? 我们设计了一系列体验场景,这些测试的共同点是:不追求理论分数,而是要求模型生成可直接运行的代码或可交付的成果。 以下是具体的体验情况。 场景1…

    2025年11月19日
    7300