ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

ERNIE-5.0版本表现:
* 测试题数:约1.5万
* 总分(准确率):70.9%
* 平均耗时(每次调用):225s
* 平均token(每次调用消耗的token):3897
* 平均花费(每千次调用的人民币花费):89.2

1、新旧版本对比

首先对比预览版本(ERNIE-5.0-Thinking-Preview),数据如下:

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析 ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能显著提升:正式版准确率从67.5%提升至70.9%,提升了3.4个百分点,排名从第22位跃升至第7位,提升了15个名次,实现了质的突破。
  • 专业能力全面增强:从细分领域来看,正式版在绝大多数领域都实现了提升。最突出的是“教育”领域,从50.4%提升至55.7%,增幅达5.3个百分点。“推理与数学计算能力”也从74.0%提升至78.7%,增幅4.7个百分点。
  • 医疗与金融能力优化明显:“医疗与心理健康”从76.0%提升至80.3%(+4.3%),“金融”从74.1%提升至78.8%(+4.7%),体现了正式版在专业垂直领域的能力强化。
  • 语言理解与工具调用同步提升:“语言与指令遵从”从65.9%提升至68.0%(+2.1%),“agent与工具调用”从58.4%提升至61.9%(+3.5%),智能体能力有所增强。
  • 部分领域存在权衡:值得注意的是,“法律与行政公务”领域略有下降,从82.3%降至81.7%(-0.6%),表明在整体性能提升过程中存在一定的能力权衡。
  • 响应速度大幅提升:正式版的平均耗时为225s,比预览版的301s快了约25%,用户体验有所改善。
  • Token消耗有所增加:每次调用平均消耗的token从3202增加至3897,增幅约21.7%,反映出正式版可能采用了更充分的推理过程。
  • 成本结构调整:每千次调用的费用从72.5元增加至89.2元,增幅约23%,主要由token消耗增加导致。

2、对比其他模型

在当前主流大模型竞争格局中,ERNIE-5.0表现如何?我们从同成本档位、新旧模型、开源VS闭源三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 高成本区间定位:ERNIE-5.0以89.2元/千次的调用成本位于高成本区间,与gemini-2.5-pro(189元)、gpt-5.1-high(180元)等顶级商用模型同处高消耗段。
  • 成本效率对比:在相近成本区间,gpt-5.1-medium(87.9元)准确率为69.3%,ERNIE-5.0以89.2元获得70.9%的准确率,成本相当但准确率高出1.6个百分点。与gemini-3-pro-preview(247.3元,72.5%)相比,ERNIE-5.0以约三分之一的成本达到了相近的准确率水平。
  • 与同厂商产品对比:相比ERNIE-5.0-Thinking-Preview(72.5元,67.5%),正式版在准确率提升3.4个百分点的同时,成本增加了23%,升级带来了明确的性能收益。

新旧模型对比

  • 位列新模型第一梯队:在新发布模型中,ERNIE-5.0以70.9%的准确率排名第7,位于gemini-3-pro-preview(72.5%)、hunyuan-2.0-thinking-20251109(71.9%)、doubao-seed-1-8-251215(71.7%)、doubao-seed-1-6-thinking-250715(71.7%)、GLM-4.7(71.5%)、gemini-3-flash-preview(71.5%)之后。
  • 与国际主流模型对比:从总分情况看,准确率与DeepSeek-V3.2-Think(70.9%)持平、高于gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)、o4-mini(69.0%)、gpt-5-2025-08-07(68.9%)等模型。
  • 思考模型竞争格局:作为具备思考能力的模型,ERNIE-5.0的70.9%准确率与DeepSeek-V3.2-Think持平,高于Kimi-K2-Thinking(68.3%)、qwen3-max-preview-think(68.2%),在thinking类模型中处于中上游水平。

开源VS闭源对比

  • 闭源阵营中游偏上:在商用闭源模型中,ERNIE-5.0位列gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao系列、gemini-3-flash-preview之后,与gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)形成直接竞争。
  • 与开源模型对比互有胜负:ERNIE-5.0(70.9%)低于开源模型GLM-4.7(71.5%),与DeepSeek-V3.2-Think(70.9%)持平,高于DeepSeek-V3.1-Think(67.7%)、qwen3-235b-a22b-thinking-2507(65.5%)等开源模型。
  • 响应速度对比:225s的响应时间在高性能模型中处于中等偏慢水平,快于Kimi-K2-Thinking(333s)、ERNIE-5.0-Thinking-Preview(301s),但慢于DeepSeek-V3.2-Think(144s)、gpt-5.1-high(117s)、GLM-4.7(96s)等模型。
  • Token效率待优化:3897的平均token消耗在对比模型中偏高,高于DeepSeek-V3.2-Think(2572)、gpt-5.1-high(2745)、gemini-3-pro-preview(3119),在推理效率方面仍有优化空间。

3、官方评测

百度官方公布了文心5.0在40余项权威基准测试中的综合评测结果,覆盖语言理解、视觉理解、音频处理、视觉生成等多个维度。

语言能力评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

官方将ERNIE-5.0与GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro、DeepSeek-v3.2-thinking进行了对比,评测维度涵盖知识、指令遵循、学科综合、逻辑推理、数学、代码、智能体等核心能力。

  • 知识与指令遵循:在SimpleQA、ChineseSimpleQA、IFEval、MultiChallenge、Multi-IF等基准测试中,ERNIE-5.0表现稳健,与国际顶尖模型处于同一水平。
  • 学科综合能力:在GPQA-Diamond、MMLU-Pro等综合学科测试中,ERNIE-5.0展现出较强的知识储备和推理能力。
  • 逻辑推理与数学:在ZebraLogic、BBEH、AIME 2025、HMMT 2025等高难度推理和数学测试中,各模型表现各有优劣,ERNIE-5.0整体处于竞争前列。

代码与智能体能力

在代码生成与智能体能力维度,ERNIE-5.0 在 LiveCodeBench、HumanEval+、MBPP+、TAU2-Bench、ACEBench 等一系列评测中,展现出较强的实用编程与任务执行能力。

视觉理解评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

在视觉理解维度,官方对比了 ERNIE-5.0、GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro 四款模型。

  • 理科与推理:在 MMMU-Pro、MathVista、MathVerse、MathVision、VisualPuzzle、VisuaLogic 等视觉推理测试中,ERNIE-5.0 表现出色,在多项测试中领先或持平。
  • 文档理解:在 VLMAreaBlind、CharXiv-RQ、CharXiv-DQ、DocVQA 等文档和图表理解测试中,ERNIE-5.0 展现出强大的 OCR 和文档解析能力。
  • 通用视觉问答:在 SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench 等通用视觉测试中,各模型互有胜负。
  • 视频理解:在 VideoMME、Video-MMMU、MMVU 等视频理解测试中,ERNIE-5.0 展现出全模态模型的综合优势。

音频能力评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

在音频处理维度,官方对比了 ERNIE-5.0、Gemini-3-Pro、GPT-4o-Audio 三款模型。

  • 音频理解:在 MMAU、TUT2017、CochlScene 等音频场景理解测试中,ERNIE-5.0 表现突出,多项指标领先。
  • 语音文本对话:在 VoiceBench 系列测试(AlpacaEval、CommonEval、SD-QA、MMSU、OpenBookQA、IFEval、AdvBench)中,ERNIE-5.0 展现出优秀的语音交互能力。
  • 语音识别:在 AISHELL-1、AISHELL-2、LibriSpeech、Fleurs 等语音识别测试中(数值越低越好),表现优异。

视觉生成评测

ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

在视觉生成维度,官方对比了 ERNIE-5.0 与 Veo3、Wan2.1、Hunyuan Video 等专业生成模型。

  • 图像生成:在 GenEval 基准测试中,ERNIE-5.0 与 GPT-Image、Nano Banana Pro、Seedream 4.0、Qwen-Image 等模型对比,生成质量处于领先水平。
  • 视频生成:在视频生成评测中,ERNIE-5.0 在 Total Score、Quality Score、Semantic Score 上与专业视频生成模型 Veo3、Wan2.1 相当。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18851

(0)
上一篇 2026年1月24日 下午12:01
下一篇 2026年1月24日 下午12:50

相关推荐

  • 工业智算2026:万亿规模下的技术融合与生态突围

    在第四次工业革命纵深推进的背景下,工业智算作为连接人工智能与实体经济的核心枢纽,正从技术探索阶段迈入规模化应用的关键周期。 本报告基于全球工业智算产业发展现状,结合2025-2026年最新行业数据与技术突破,系统阐释工业智算的核心内涵、技术架构与产业价值,深度剖析美欧等发达国家产业链布局与发展路径,全面梳理我国工业智算在市场规模、技术创新、国产替代等方面的进…

    2026年1月26日
    27700
  • 揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

    马斯克开源𝕏推荐算法:一个纯AI驱动的端到端系统 目前,GitHub上已完整公开了马斯克开源的𝕏推荐算法系统。 开源文件明确指出,这是一个几乎完全由AI模型驱动的算法系统。 我们移除了所有人工设计特征和绝大多数启发式规则。 消息一出,社区反响热烈,一条获得高赞的评论写道: 不可思议!没有其他平台能做到如此透明。 马斯克本人也迅速转发了𝕏工程团队的原帖,但他此…

    2026年1月21日
    21400
  • 4KAgent:多智能体协同的通用图像超分辨率框架,突破传统模型局限

    图像超分辨率技术作为计算机视觉领域的重要研究方向,长期以来面临着处理复杂退化图像和跨领域应用的挑战。传统方法通常在特定数据集上表现优异,但面对真实世界中的噪声、模糊、压缩损伤以及AI生成图像、遥感影像、生物医学图像等多样化场景时,往往难以兼顾通用性与高质量输出。近期,由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大…

    2025年11月21日
    19600
  • 腾讯开源YOLO-Master:混合专家MoE赋能实时目标检测,开启端侧AI自适应计算新时代

    关键词: YOLO-Master、混合专家(MoE)、实时目标检测、动态路由、ES-MoE 动态计算,按需分配:YOLO-Master 如何用 MoE 重新定义实时目标检测 实时目标检测(Real-Time Object Detection, RTOD)是计算机视觉领域的核心任务之一,从自动驾驶到工业质检,从安防监控到移动端应用,都离不开它的身影。YOLO …

    2026年2月19日
    16100
  • 《赛博徒步·生死鳌太线》生存模拟器深度评测:AI驱动的极限生存挑战与策略博弈

    梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI “不卖烤肠的山,不要爬”。 原本我以为,听完《神秘园》的劝,这辈子大概就和勇闯鳌太 这事儿彻底绝缘了。 直到事情开始朝着一个有点离谱的方向发展—— 昨天半夜,我只是顺手点开了网友发来的一个链接,下一秒,人就已经魂穿赛博鳌太线 ,开始玩命进山了: 在这儿,你压根不用操心预算经费的问题,开局一笔巨款,顶级装备…

    2026年2月1日
    53500