百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
ERNIE-5.0版本表现:
* 测试题数:约1.5万
* 总分(准确率):70.9%
* 平均耗时(每次调用):225s
* 平均token(每次调用消耗的token):3897
* 平均花费(每千次调用的人民币花费):89.2
1、新旧版本对比
首先对比预览版本(ERNIE-5.0-Thinking-Preview),数据如下:

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”
- 整体性能显著提升:正式版准确率从67.5%提升至70.9%,提升了3.4个百分点,排名从第22位跃升至第7位,提升了15个名次,实现了质的突破。
- 专业能力全面增强:从细分领域来看,正式版在绝大多数领域都实现了提升。最突出的是“教育”领域,从50.4%提升至55.7%,增幅达5.3个百分点。“推理与数学计算能力”也从74.0%提升至78.7%,增幅4.7个百分点。
- 医疗与金融能力优化明显:“医疗与心理健康”从76.0%提升至80.3%(+4.3%),“金融”从74.1%提升至78.8%(+4.7%),体现了正式版在专业垂直领域的能力强化。
- 语言理解与工具调用同步提升:“语言与指令遵从”从65.9%提升至68.0%(+2.1%),“agent与工具调用”从58.4%提升至61.9%(+3.5%),智能体能力有所增强。
- 部分领域存在权衡:值得注意的是,“法律与行政公务”领域略有下降,从82.3%降至81.7%(-0.6%),表明在整体性能提升过程中存在一定的能力权衡。
- 响应速度大幅提升:正式版的平均耗时为225s,比预览版的301s快了约25%,用户体验有所改善。
- Token消耗有所增加:每次调用平均消耗的token从3202增加至3897,增幅约21.7%,反映出正式版可能采用了更充分的推理过程。
- 成本结构调整:每千次调用的费用从72.5元增加至89.2元,增幅约23%,主要由token消耗增加导致。
2、对比其他模型
在当前主流大模型竞争格局中,ERNIE-5.0表现如何?我们从同成本档位、新旧模型、开源VS闭源三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
- 高成本区间定位:ERNIE-5.0以89.2元/千次的调用成本位于高成本区间,与gemini-2.5-pro(189元)、gpt-5.1-high(180元)等顶级商用模型同处高消耗段。
- 成本效率对比:在相近成本区间,gpt-5.1-medium(87.9元)准确率为69.3%,ERNIE-5.0以89.2元获得70.9%的准确率,成本相当但准确率高出1.6个百分点。与gemini-3-pro-preview(247.3元,72.5%)相比,ERNIE-5.0以约三分之一的成本达到了相近的准确率水平。
- 与同厂商产品对比:相比ERNIE-5.0-Thinking-Preview(72.5元,67.5%),正式版在准确率提升3.4个百分点的同时,成本增加了23%,升级带来了明确的性能收益。
新旧模型对比
- 位列新模型第一梯队:在新发布模型中,ERNIE-5.0以70.9%的准确率排名第7,位于gemini-3-pro-preview(72.5%)、hunyuan-2.0-thinking-20251109(71.9%)、doubao-seed-1-8-251215(71.7%)、doubao-seed-1-6-thinking-250715(71.7%)、GLM-4.7(71.5%)、gemini-3-flash-preview(71.5%)之后。
- 与国际主流模型对比:从总分情况看,准确率与DeepSeek-V3.2-Think(70.9%)持平、高于gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)、o4-mini(69.0%)、gpt-5-2025-08-07(68.9%)等模型。
- 思考模型竞争格局:作为具备思考能力的模型,ERNIE-5.0的70.9%准确率与DeepSeek-V3.2-Think持平,高于Kimi-K2-Thinking(68.3%)、qwen3-max-preview-think(68.2%),在thinking类模型中处于中上游水平。
开源VS闭源对比
- 闭源阵营中游偏上:在商用闭源模型中,ERNIE-5.0位列gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao系列、gemini-3-flash-preview之后,与gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)形成直接竞争。
- 与开源模型对比互有胜负:ERNIE-5.0(70.9%)低于开源模型GLM-4.7(71.5%),与DeepSeek-V3.2-Think(70.9%)持平,高于DeepSeek-V3.1-Think(67.7%)、qwen3-235b-a22b-thinking-2507(65.5%)等开源模型。
- 响应速度对比:225s的响应时间在高性能模型中处于中等偏慢水平,快于Kimi-K2-Thinking(333s)、ERNIE-5.0-Thinking-Preview(301s),但慢于DeepSeek-V3.2-Think(144s)、gpt-5.1-high(117s)、GLM-4.7(96s)等模型。
- Token效率待优化:3897的平均token消耗在对比模型中偏高,高于DeepSeek-V3.2-Think(2572)、gpt-5.1-high(2745)、gemini-3-pro-preview(3119),在推理效率方面仍有优化空间。
3、官方评测
百度官方公布了文心5.0在40余项权威基准测试中的综合评测结果,覆盖语言理解、视觉理解、音频处理、视觉生成等多个维度。
语言能力评测

官方将ERNIE-5.0与GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro、DeepSeek-v3.2-thinking进行了对比,评测维度涵盖知识、指令遵循、学科综合、逻辑推理、数学、代码、智能体等核心能力。
- 知识与指令遵循:在SimpleQA、ChineseSimpleQA、IFEval、MultiChallenge、Multi-IF等基准测试中,ERNIE-5.0表现稳健,与国际顶尖模型处于同一水平。
- 学科综合能力:在GPQA-Diamond、MMLU-Pro等综合学科测试中,ERNIE-5.0展现出较强的知识储备和推理能力。
- 逻辑推理与数学:在ZebraLogic、BBEH、AIME 2025、HMMT 2025等高难度推理和数学测试中,各模型表现各有优劣,ERNIE-5.0整体处于竞争前列。
代码与智能体能力
在代码生成与智能体能力维度,ERNIE-5.0 在 LiveCodeBench、HumanEval+、MBPP+、TAU2-Bench、ACEBench 等一系列评测中,展现出较强的实用编程与任务执行能力。
视觉理解评测

在视觉理解维度,官方对比了 ERNIE-5.0、GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro 四款模型。
- 理科与推理:在 MMMU-Pro、MathVista、MathVerse、MathVision、VisualPuzzle、VisuaLogic 等视觉推理测试中,ERNIE-5.0 表现出色,在多项测试中领先或持平。
- 文档理解:在 VLMAreaBlind、CharXiv-RQ、CharXiv-DQ、DocVQA 等文档和图表理解测试中,ERNIE-5.0 展现出强大的 OCR 和文档解析能力。
- 通用视觉问答:在 SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench 等通用视觉测试中,各模型互有胜负。
- 视频理解:在 VideoMME、Video-MMMU、MMVU 等视频理解测试中,ERNIE-5.0 展现出全模态模型的综合优势。
音频能力评测

在音频处理维度,官方对比了 ERNIE-5.0、Gemini-3-Pro、GPT-4o-Audio 三款模型。
- 音频理解:在 MMAU、TUT2017、CochlScene 等音频场景理解测试中,ERNIE-5.0 表现突出,多项指标领先。
- 语音文本对话:在 VoiceBench 系列测试(AlpacaEval、CommonEval、SD-QA、MMSU、OpenBookQA、IFEval、AdvBench)中,ERNIE-5.0 展现出优秀的语音交互能力。
- 语音识别:在 AISHELL-1、AISHELL-2、LibriSpeech、Fleurs 等语音识别测试中(数值越低越好),表现优异。
视觉生成评测

在视觉生成维度,官方对比了 ERNIE-5.0 与 Veo3、Wan2.1、Hunyuan Video 等专业生成模型。
- 图像生成:在 GenEval 基准测试中,ERNIE-5.0 与 GPT-Image、Nano Banana Pro、Seedream 4.0、Qwen-Image 等模型对比,生成质量处于领先水平。
- 视频生成:在视频生成评测中,ERNIE-5.0 在 Total Score、Quality Score、Semantic Score 上与专业视频生成模型 Veo3、Wan2.1 相当。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18851
