ERNIE-5.0全面评测：2.4万亿参数旗舰大模型性能与成本深度解析

百度近期正式发布了原生全模态大模型ERNIE-5.0（文心5.0），这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品，支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

ERNIE-5.0版本表现：
* 测试题数：约1.5万
* 总分（准确率）：70.9%
* 平均耗时（每次调用）：225s
* 平均token（每次调用消耗的token）：3897
* 平均花费（每千次调用的人民币花费）：89.2

1、新旧版本对比

首先对比预览版本（ERNIE-5.0-Thinking-Preview），数据如下：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

整体性能显著提升：正式版准确率从67.5%提升至70.9%，提升了3.4个百分点，排名从第22位跃升至第7位，提升了15个名次，实现了质的突破。
专业能力全面增强：从细分领域来看，正式版在绝大多数领域都实现了提升。最突出的是“教育”领域，从50.4%提升至55.7%，增幅达5.3个百分点。“推理与数学计算能力”也从74.0%提升至78.7%，增幅4.7个百分点。
医疗与金融能力优化明显：“医疗与心理健康”从76.0%提升至80.3%（+4.3%），“金融”从74.1%提升至78.8%（+4.7%），体现了正式版在专业垂直领域的能力强化。
语言理解与工具调用同步提升：“语言与指令遵从”从65.9%提升至68.0%（+2.1%），“agent与工具调用”从58.4%提升至61.9%（+3.5%），智能体能力有所增强。
部分领域存在权衡：值得注意的是，“法律与行政公务”领域略有下降，从82.3%降至81.7%（-0.6%），表明在整体性能提升过程中存在一定的能力权衡。
响应速度大幅提升：正式版的平均耗时为225s，比预览版的301s快了约25%，用户体验有所改善。
Token消耗有所增加：每次调用平均消耗的token从3202增加至3897，增幅约21.7%，反映出正式版可能采用了更充分的推理过程。
成本结构调整：每千次调用的费用从72.5元增加至89.2元，增幅约23%，主要由token消耗增加导致。

2、对比其他模型

在当前主流大模型竞争格局中，ERNIE-5.0表现如何？我们从同成本档位、新旧模型、开源VS闭源三个维度进行横向对比分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

高成本区间定位：ERNIE-5.0以89.2元/千次的调用成本位于高成本区间，与gemini-2.5-pro（189元）、gpt-5.1-high（180元）等顶级商用模型同处高消耗段。
成本效率对比：在相近成本区间，gpt-5.1-medium（87.9元）准确率为69.3%，ERNIE-5.0以89.2元获得70.9%的准确率，成本相当但准确率高出1.6个百分点。与gemini-3-pro-preview（247.3元，72.5%）相比，ERNIE-5.0以约三分之一的成本达到了相近的准确率水平。
与同厂商产品对比：相比ERNIE-5.0-Thinking-Preview（72.5元，67.5%），正式版在准确率提升3.4个百分点的同时，成本增加了23%，升级带来了明确的性能收益。

新旧模型对比

位列新模型第一梯队：在新发布模型中，ERNIE-5.0以70.9%的准确率排名第7，位于gemini-3-pro-preview（72.5%）、hunyuan-2.0-thinking-20251109（71.9%）、doubao-seed-1-8-251215（71.7%）、doubao-seed-1-6-thinking-250715（71.7%）、GLM-4.7（71.5%）、gemini-3-flash-preview（71.5%）之后。
与国际主流模型对比：从总分情况看，准确率与DeepSeek-V3.2-Think（70.9%）持平、高于gpt-5.1-high（69.7%）、gpt-5.1-medium（69.3%）、o4-mini（69.0%）、gpt-5-2025-08-07（68.9%）等模型。
思考模型竞争格局：作为具备思考能力的模型，ERNIE-5.0的70.9%准确率与DeepSeek-V3.2-Think持平，高于Kimi-K2-Thinking（68.3%）、qwen3-max-preview-think（68.2%），在thinking类模型中处于中上游水平。

开源VS闭源对比

闭源阵营中游偏上：在商用闭源模型中，ERNIE-5.0位列gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao系列、gemini-3-flash-preview之后，与gpt-5.1-high（69.7%）、gpt-5.1-medium（69.3%）形成直接竞争。
与开源模型对比互有胜负：ERNIE-5.0（70.9%）低于开源模型GLM-4.7（71.5%），与DeepSeek-V3.2-Think（70.9%）持平，高于DeepSeek-V3.1-Think（67.7%）、qwen3-235b-a22b-thinking-2507（65.5%）等开源模型。
响应速度对比：225s的响应时间在高性能模型中处于中等偏慢水平，快于Kimi-K2-Thinking（333s）、ERNIE-5.0-Thinking-Preview（301s），但慢于DeepSeek-V3.2-Think（144s）、gpt-5.1-high（117s）、GLM-4.7（96s）等模型。
Token效率待优化：3897的平均token消耗在对比模型中偏高，高于DeepSeek-V3.2-Think（2572）、gpt-5.1-high（2745）、gemini-3-pro-preview（3119），在推理效率方面仍有优化空间。

3、官方评测

百度官方公布了文心5.0在40余项权威基准测试中的综合评测结果，覆盖语言理解、视觉理解、音频处理、视觉生成等多个维度。

语言能力评测

官方将ERNIE-5.0与GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro、DeepSeek-v3.2-thinking进行了对比，评测维度涵盖知识、指令遵循、学科综合、逻辑推理、数学、代码、智能体等核心能力。

知识与指令遵循：在SimpleQA、ChineseSimpleQA、IFEval、MultiChallenge、Multi-IF等基准测试中，ERNIE-5.0表现稳健，与国际顶尖模型处于同一水平。
学科综合能力：在GPQA-Diamond、MMLU-Pro等综合学科测试中，ERNIE-5.0展现出较强的知识储备和推理能力。
逻辑推理与数学：在ZebraLogic、BBEH、AIME 2025、HMMT 2025等高难度推理和数学测试中，各模型表现各有优劣，ERNIE-5.0整体处于竞争前列。

代码与智能体能力

在代码生成与智能体能力维度，ERNIE-5.0 在 LiveCodeBench、HumanEval+、MBPP+、TAU2-Bench、ACEBench 等一系列评测中，展现出较强的实用编程与任务执行能力。

视觉理解评测

在视觉理解维度，官方对比了 ERNIE-5.0、GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro 四款模型。

理科与推理：在 MMMU-Pro、MathVista、MathVerse、MathVision、VisualPuzzle、VisuaLogic 等视觉推理测试中，ERNIE-5.0 表现出色，在多项测试中领先或持平。
文档理解：在 VLMAreaBlind、CharXiv-RQ、CharXiv-DQ、DocVQA 等文档和图表理解测试中，ERNIE-5.0 展现出强大的 OCR 和文档解析能力。
通用视觉问答：在 SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench 等通用视觉测试中，各模型互有胜负。
视频理解：在 VideoMME、Video-MMMU、MMVU 等视频理解测试中，ERNIE-5.0 展现出全模态模型的综合优势。

音频能力评测

在音频处理维度，官方对比了 ERNIE-5.0、Gemini-3-Pro、GPT-4o-Audio 三款模型。

音频理解：在 MMAU、TUT2017、CochlScene 等音频场景理解测试中，ERNIE-5.0 表现突出，多项指标领先。
语音文本对话：在 VoiceBench 系列测试（AlpacaEval、CommonEval、SD-QA、MMSU、OpenBookQA、IFEval、AdvBench）中，ERNIE-5.0 展现出优秀的语音交互能力。
语音识别：在 AISHELL-1、AISHELL-2、LibriSpeech、Fleurs 等语音识别测试中（数值越低越好），表现优异。

视觉生成评测

在视觉生成维度，官方对比了 ERNIE-5.0 与 Veo3、Wan2.1、Hunyuan Video 等专业生成模型。

图像生成：在 GenEval 基准测试中，ERNIE-5.0 与 GPT-Image、Nano Banana Pro、Seedream 4.0、Qwen-Image 等模型对比，生成质量处于领先水平。
视频生成：在视频生成评测中，ERNIE-5.0 在 Total Score、Quality Score、Semantic Score 上与专业视频生成模型 Veo3、Wan2.1 相当。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18851

ERNIE-5.0全面评测：2.4万亿参数旗舰大模型性能与成本深度解析

1、新旧版本对比

2、对比其他模型

同成本档位对比

新旧模型对比

开源VS闭源对比

3、官方评测

语言能力评测

代码与智能体能力

视觉理解评测

音频能力评测

视觉生成评测

相关推荐

工业智算2026：万亿规模下的技术融合与生态突围

揭秘马斯克开源X推荐算法：纯AI驱动的端到端系统如何重塑社交媒体内容分发

4KAgent：多智能体协同的通用图像超分辨率框架，突破传统模型局限

腾讯开源YOLO-Master：混合专家MoE赋能实时目标检测，开启端侧AI自适应计算新时代

《赛博徒步·生死鳌太线》生存模拟器深度评测：AI驱动的极限生存挑战与策略博弈