万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生

源Yuan3.0 Ultra多模态基础大模型正式开源

YuanLab.ai团队正式开源发布了 源Yuan3.0 Ultra 多模态基础大模型。

作为源3.0系列面向 万亿参数 规模打造的旗舰模型,它是当前业界仅有的三个万亿级开源多模态大模型之一。该模型将MoE大模型的训练效率优化系统性引入模型结构设计,并围绕企业应用及智能体工具调用等方面进行了深度优化,在多模态文档理解、检索增强生成(RAG)、表格数据分析、内容摘要与工具调用等企业级任务中表现突出。

这些能力使模型能够高质量处理企业环境中的复杂信息形态,如图文混排文档、多级结构表格以及跨文档知识检索,为基于 OpenClaw 等智能体框架构建多模态数据驱动的企业Agent AI提供核心能力支撑。

Yuan3.0 Ultra采用 统一多模态模型架构 ,可实现视觉与语言信息的协同建模。其中,语言主干网络基于混合专家(MoE)架构构建,训练初始阶段参数规模为1515B,通过 LAEP 方法优化至1010B,预训练算力效率提升49%,激活参数为68.8B。

此外,模型还引入了 Localized Filtering Attention(LFA) 机制,有效强化对语义关系的建模能力,相比经典Attention结构可获得更高的模型精度表现。

万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生

目前,Yuan3.0 Ultra的模型参数和代码均已开源。

面向企业复杂业务场景的多模态能力

企业级Agent通常需要同时处理文档、表格与数据库等多种信息形态,并通过多步骤推理与工具调用完成任务。Yuan3.0 Ultra在设计阶段即围绕企业真实业务流程中的信息处理与任务执行需求进行能力构建。

复杂文档与图表信息理解

在企业实际业务中,大量关键信息存在于 技术方案、财报报告、行业研究材料等文档 中,这些内容通常包含图文混排结构、复杂表格以及跨页面信息关联。

Yuan3.0 Ultra在 DocMatixMMTab 等多模态文档理解评测中表现领先。基于这一能力,模型能够准确解析图文混排文档结构并提取关键数据指标,支撑智能体系统高质量完成文档理解、数据提取与报告总结等任务,可应用于财报分析、合同审阅以及技术文档解析等场景。

多源信息检索与整合

企业内部知识通常分散在 文档库、知识库系统以及业务数据库 中,信息来源复杂且结构不统一。要在这样的环境中获取有效信息,不仅需要检索能力,还需要对多源内容进行语义整合与综合分析。

Yuan3.0 Ultra在 ChatRAGSummEval 等检索增强生成评测中表现领先。依托这一能力,模型可以在企业知识环境中完成 检索、理解与综合生成 的完整信息处理流程,支持智能体利用企业私有知识完成复杂任务。

数据分析与业务决策辅助

在企业运营场景中,大量业务决策依赖 数据库查询、报表分析以及跨系统数据整合 。传统流程通常需要人工编写数据库查询语句(SQL)并整理分析报告,效率较低。

Yuan3.0 Ultra在 SpiderBIRD 等Text-to-SQL基准评测中表现出色。依托这一能力,模型能够高质量支持智能体的 数据查询、运营分析以及报告生成 等任务,支撑企业构建 业务分析与决策系统

不追求更多专家,而是更有效专家

研究团队在长期的大模型算法研究中发现,大模型预训练过程的专家负载演化可分为两个阶段:
* 第一阶段:初始过渡阶段,发生在模型预训练早期,此时专家负载波动剧烈,受随机初始化影响明显。
* 第二阶段:稳定阶段,此时各专家之间的token负载趋于稳定,每个专家接收的token数量仅呈现相对较小的波动。

在训练稳定阶段,专家的token负载极不均衡,少数专家承担大量计算,而部分专家长期处于低负载状态,导致算力资源浪费。从学习机制角度来看,这一现象实际上是大模型在训练过程中形成 功能专一化 的体现——不同专家在长期训练中逐渐对特定模式、语义结构或任务类型形成稳定偏好,在模型内部自发涌现出专业化的分工结构。

因此,对于大规模MoE模型而言,关键问题在于如何识别并剔除训练后逐渐固化的冗余结构,在保持模型专业化能力的同时,实现算力资源的高效利用。

为解决这一问题,Yuan3.0 Ultra提出针对预训练的 Layer-Adaptive Expert Pruning(LAEP) 算法。LAEP能够根据预训练过程中形成的专家负载统计信息,动态识别低贡献专家,并对模型结构进行自适应裁剪与专家重排,使计算资源集中于真正发挥作用的专家。

万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生

实验结果显示:
* 模型参数减少33.3%
* 整体预训练效率提升49%

万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生

不追求“更长思考”,而是“更有效思考”

Yuan3.0 Ultra的训练策略聚焦于 Fast-thinking强化学习范式 。与单纯延长推理链条不同,模型默认采用高效的短路径推理方式,使计算资源优先用于高信息增益的步骤。

在大规模强化学习过程中,团队围绕反思抑制奖励机制(RIRM)进行了系统优化,通过对反思次数引入奖励约束,使模型在获得可靠答案后主动减少无效反思,同时在复杂问题中保留必要的推理深度。这一机制有效缓解了快思考模式下的 “过度思考” 现象。

万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生

训练结果表明,在这一受控快思考策略下,模型精度显著提升,同时推理过程中生成的Token数量持续下降,实现了准确性与计算效率的同步优化。

开源基础模型,推动可落地的大模型智能

Yuan3.0 Ultra 大模型全面开源,发布内容包括模型权重(16bit 与 4bit 版本)、技术报告、完整的训练方法与评测结果,支持社区在此基础上进行二次训练与行业定制。

其中,模型提出的 LAEP 方法是 YuanLab.ai 团队对下一代基础大模型架构的探索与实践,为业界 MoE 大模型结构创新与预训练算力效率提升提供了新的路径。

团队希望通过 Yuan3.0 Ultra 的开源,推动大模型从“能力展示”走向“规模化落地”,为企业用户提供深度优化的、面向智能体应用的多模态基础大模型。

此外,Yuan3.0 基础大模型系列将包含 Flash、Pro 和 Ultra 等版本,参数量分别为 40B、200B 和 1T,相关成果将陆续发布。

  • 代码链接:https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
  • 论文链接:https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra/blob/main/Docs/Yuan3.0_Ultra%20Paper.pdf
  • Huggingface 链接:https://huggingface.co/YuanLabAI/Yuan3.0-Ultra-int4
  • ModelScope 链接:https://modelscope.cn/models/YuanLabAI/Yuan3.0-Ultra-int4
  • 始智 AI 链接:https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra-int4

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/24354

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐

  • AI绘图革命:Next AI Draw.io一周斩获4500星,自然语言秒变专业图表

    Next AI Draw.io:一周斩获4500星,用自然语言秒变专业图表 在GitHub上,一个名为 Next AI Draw.io 的开源项目迅速走红,仅一周就获得了超过4500个Star,并登上了开源热榜。 如果你在工作中经常需要绘制流程图、架构图或UML图,又觉得传统的拖拽连线方式效率低下,那么这个项目或许能成为你的效率利器。 开源项目简介 Next…

    2025年12月18日
    35600
  • AI舆情分析神器BettaFish:多智能体协作打破信息茧房,24小时生成深度报告

    看今天的 GitHub 开源热榜,一个名为 BettaFish 的开源项目登顶了。这个又名“微舆”的项目,定位为一个人人可用的多智能体舆情分析助手,旨在帮助用户打破信息茧房、还原舆情原貌、预测未来走向并辅助决策。 简单来说,它将多个 AI 智能体组织在一起,各司其职,通过模拟专业团队协作的方式来处理复杂的舆情分析任务。使用它,你可以洞察各大媒体平台上对特定品…

    2025年11月6日
    14700
  • 国产AI开发平台BISHENG:GitHub斩获10K星,企业级LLM DevOps解决方案

    在浏览 GitHub 时,一个名为 BISHENG 的国产 AI 开源项目引起了我的注意。 这是一款主要面向企业的开源 AgentOps 平台。其名称源自活字印刷术的发明者——毕昇。活字印刷术曾极大地推动了人类知识的传播,而 BISHENG 团队的愿景,则是为智能应用的广泛落地提供有力支撑。 开源项目简介 BISHENG 已在 GitHub 上获得了超过 1…

    2025年11月24日
    18600
  • Ruby 4.0重磅发布:ZJIT编译器革新与原生隔离环境,开启性能与安全新纪元

    Ruby 4.0重磅发布:ZJIT编译器革新与原生隔离环境,开启性能与安全新纪元 在Ruby语言迎来30周年之际,全新的4.0版本为开发者带来了重磅更新。本次更新引入了隔离命名空间、全新的JIT编译器,并对Ractor API进行了重新设计,标志着这款开源语言在性能与安全方面迈入了新纪元。 Ruby是一种开源的面向对象脚本语言,由日本人松本行弘于20世纪90…

    2025年12月28日
    14300
  • AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性

    AutoMV团队 投稿 量子位 | 公众号 QbitAI 现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。 近日,来自M-A-P、北京邮电大学、南京大学NJU-LINK实验室等机构的研究者们提出了AutoMV。 这是一个无需训练的多智能体(Multi-Agent)系统,它像一个专…

    2025年12月29日
    25300