百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式

克雷西 发自 凹非寺

模型发布近3个月后,百度ERNIE 5.0的技术报告终于公布。

百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式

其底座采用超级稀疏的Ultra-Sparse MoE架构,参数量高达万亿,但推理时真正激活的参数不到3%,是目前公开模型中首个实现这一规模的统一自回归模型。

在架构设计上,ERNIE 5.0拒绝“拼接”,真正实现了文本、图像、视频和音频四种模态的原生自回归统一,让所有模态从零开始就在同一个Transformer主干网络中协同训练。

ERNIE 5.0在多项基准测试中表现出色:在VBench视频语义评分中取得83.40分,在AISHELL-1语音识别任务中字错率低至0.31%,在MATH数学推理任务上得分73.89,展现出全面的多模态能力。

百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式

MoE路由调度不看模态

为了打破不同模态数据之间的隔阂,ERNIE 5.0在核心架构上采用了一种模态无关的专家路由机制。

这与以往“分而治之”的传统模型设计大不相同,它拆除了人为设立的模态壁垒,不再预先为数据贴上“视觉”或“语言”等标签。

ERNIE 5.0构建了一个共享专家池,让所有模态的数据都能在同一个巨大的参数网络中自由流动与交互。

百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式

在具体的调度执行上,模型完全基于统一的Token表征进行决策。无论输入数据的原始模态如何,都会被转化为统一格式并精准匹配至最合适的专家进行处理。

这种开放式的管理策略在训练中引发了涌现式专业化现象。在没有人工指令规定分工的情况下,专家们在海量数据的训练中自发形成了角色定位——有的自动专精于视觉处理,有的擅长文本逻辑,还有一部分进化成了负责跨模态对齐的“通才”。这种隐式协作不仅让多模态理解更加流畅,也自然拓展了模型的能力边界。

弹性预训练,一次产出多个模型

除了新的专家调度方式,ERNIE 5.0还首创了“一次性全能”的弹性训练范式。

传统上,为了适配不同算力的设备,往往需要从头训练大、中、小多个模型版本,消耗大量时间和算力资源。现在,ERNIE 5.0通过构建一个超大的超网络,只需进行一次预训练,就能通过权重共享的方式,直接从中抽取出一整套不同规格的子模型矩阵。

具体而言,它引入了弹性深度机制。在训练过程中,系统采用了类似层丢弃的策略,不再固定地遍历所有计算层,而是随机跳过一部分Transformer层,使得模型中的浅层网络也能独立承担有效的计算任务。

同时,它还支持弹性宽度与稀疏度的调节。这意味着可以动态调整专家池的总容量,以及灵活控制每次推理时具体激活的专家数量,从而在全量万亿参数和轻量化部署需求之间找到最佳平衡点。

百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式

这种训练方法最大的优势在于零样本抽取。提取出的子模型无需进行昂贵的重新微调,也无需复杂的模型压缩流程,便能直接继承全量模型的核心能力。

后训练优化

在对齐阶段,ERNIE 5.0实施了统一多模态强化学习策略,将逻辑推理、指令跟随与多模态生成任务纳入同一强化学习流水线中进行协同优化,实现了跨模态能力的深度对齐。

针对训练效率问题,模型引入了无偏重放缓存技术,通过严格的数据排序约束,有效解决了因任务长度不一导致的计算负载不均问题,从而大幅提升了整体训练吞吐量。

百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式

为了保障策略优化的稳定性,ERNIE 5.0应用了多粒度重要性采样剪裁与已掌握样本掩码机制。这两项技术专注于抑制训练初期容易出现的熵崩塌现象,确保模型在复杂的优化过程中保持策略更新的稳健性。

百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式

此外,面对奖励信号稀疏的困难任务,模型采用了自适应提示强化学习方法,在训练初期注入“思维骨架”作为引导信号,并随着训练深入逐步退火,最终实现从辅助引导到独立解决复杂问题的平滑过渡。

除了核心架构与训练范式,技术报告还详细阐述了各个模态的具体处理细节,包括文本的位置编码变体、图像与视频的时空分块策略,以及音频信号的离散化编码方案。

报告也披露了底层PaddlePaddle框架在千卡集群上的通信优化策略,以及针对超长上下文的高效注意力机制设计。

报告地址:
https://arxiv.org/abs/2602.04705


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21025

(0)
上一篇 2026年2月10日 下午12:42
下一篇 2026年2月10日 下午12:56

相关推荐

  • 摩尔线程LiteGS技术斩获SIGGRAPH Asia银奖:3D高斯溅射重建效率突破性提升

    在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级会议上,摩尔线程凭借其自主研发的3D高斯溅射(3DGS)基础库LiteGS,在3DGS重建挑战赛中荣获银奖。这一成果标志着该公司在下一代图形渲染技术领域取得了重要进展。 3D高斯溅射:图形渲染技术的范式变革3D高斯溅射(3D Gaussian Splatting)是2023年提出的一种革命性…

    2025年12月19日
    41600
  • 突破百万上下文:面壁智能SALA混合注意力架构引领端侧大模型新纪元

    最强的大模型,已经把scaling卷到了一个新维度:百万级上下文 。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风,也很快吹到了端侧。 面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构,不仅解决了…

    2026年2月11日
    15500
  • 谷歌AI教父Jeff Dean预言:未来工程师将管理50个智能体实习生,写需求比写代码更重要

    Jeff Dean预言:未来工程师将管理50个智能体,写需求比写代码更重要 谷歌首席AI科学家、传奇工程师Jeff Dean在最新访谈中提出了一个引人注目的预言:未来每位工程师可能会管理多达50个智能体实习生,以并行处理大量任务,且沟通效率将超越人类协作。 他同时指出,未来最重要的技能将是“清晰地定义需求”,因为智能体的输出质量完全取决于人类如何描述和限定问…

    2026年3月10日
    16100
  • 《扩散模型原理》专著深度解析:统一理论框架如何重塑生成式AI的未来格局

    扩散模型作为生成式人工智能领域的革命性技术,自2020年以来已彻底改变了图像、音频、视频乃至3D内容的生成范式。然而,其复杂的数学基础和分散的研究视角,使得从业者往往难以系统掌握其核心原理。由Sony AI、OpenAI和斯坦福大学联合撰写的460页专著《The Principles of Diffusion Models》,正是为解决这一困境而诞生的权威指…

    2025年10月29日
    27000
  • MiMo-Embodied:全球首个跨具身基座模型的技术突破与产业影响

    在人工智能技术快速演进的当下,具身智能与自动驾驶作为两大前沿领域,长期面临着知识迁移与能力统一的挑战。传统视觉语言模型(VLMs)往往局限于单一场景——要么专注于室内机器人操作,要么聚焦于户外驾驶任务,这种割裂状态严重制约了智能体在动态物理世界中的综合交互能力。近日,小米汽车陈龙团队开源了全球首个打通自动驾驶与具身操作场景的跨具身(X-Embodied)基座…

    2025年11月25日
    25200