MoE架构
-
万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生
源Yuan3.0 Ultra多模态基础大模型正式开源 YuanLab.ai团队正式开源发布了 源Yuan3.0 Ultra 多模态基础大模型。 作为源3.0系列面向 万亿参数 规模打造的旗舰模型,它是当前业界仅有的三个万亿级开源多模态大模型之一。该模型将MoE大模型的训练效率优化系统性引入模型结构设计,并围绕企业应用及智能体工具调用等方面进行了深度优化,在多…
-
阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低
Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型,总参数量为1220亿,采用256个专家的稀疏混合专家(MoE)架构,每次前向传播仅激活约100亿参数。该模型基于Gated Delta Networks与稀疏MoE的混合架构,支持文本、图像和视频输入。官方宣称其在纯文本任务上的性能可媲美前代旗舰模型Qwen3-Max,同时成…
-
阿里千问3.5-Plus重磅开源:原生多模态、性能倒挂、价格屠夫,开源大模型迎来王炸级突破
前阵子,各大模型厂商纷纷迭代产品,功能之多令人眼花缭乱。 就在大家以为临近春节,AI圈已无新牌可打时,阿里通义千问却毫无预兆地甩出了一对“王炸”——全新一代大模型 Qwen 3.5-Plus 正式重磅开源。 该模型在多模态理解、复杂推理、编程及Agent等核心维度上,不仅全面领先于同级开源模型,更在多项基准测试中足以媲美顶级闭源模型。 此次发布的核心亮点如下…
-
百度ERNIE 5.0:万亿参数统一多模态大脑,原生自回归架构颠覆AI设计范式
克雷西 发自 凹非寺 模型发布近3个月后,百度ERNIE 5.0的技术报告终于公布。 其底座采用超级稀疏的Ultra-Sparse MoE架构,参数量高达万亿,但推理时真正激活的参数不到3%,是目前公开模型中首个实现这一规模的统一自回归模型。 在架构设计上,ERNIE 5.0拒绝“拼接”,真正实现了文本、图像、视频和音频四种模态的原生自回归统一,让所有模态从…
-
DeepSeek开源Engram模块:查算分离破解Transformer/MoE架构记忆推理冲突,开启大模型降本增效新范式
本文将从技术原理、性能验证、算力变革、产业链影响、国际对比及挑战展望六大维度,深度解析这一技术突破的核心价值与行业影响。 2026年1月13日,AI领域迎来一项颠覆性技术突破——DeepSeek在其GitHub官方仓库正式开源了题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity …
-
美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?
美团近期发布了LongCat-Flash-Thinking-2601模型,作为一款基于MoE架构的5600亿参数大型推理模型,官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测,测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现:* 测试题数: 约1.5万* 总分(准确…
-
AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮
12月1日 【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero,首次将GUI Agent模型与完整的配套基础设施同步开放,支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录,取得了SOTA成绩。此外,阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily,旨…
-
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…
-
AI前沿速递:美团LongCat与Moonshot Kimi-K2引领多模态与思考模型新突破
11月3日 【开源】 美团发布 LongCat-Flash-Omni-FP8,这是一个拥有 5600 亿参数(激活 270 亿)的开源全模态模型,专精于实时音视频交互。该模型采用高性能捷径连接混合专家(MoE)架构,并整合了零计算专家、高效的多模态感知模块与语音重建模块。通过课程启发式渐进训练策略,它在保持强大单模态能力的同时,实现了全面的多模态理解与生成能…
-
AI前沿速递:长视频生成突破、视觉文本压缩创新与轻量MoE模型发布
10月26日 【开源】美团LongCat-Video视频生成模型美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分,原生支持文生视频、图生视频、视频续写三大核心任务,能够实现分钟级长视频的连贯生成,从根源上保障了跨帧时序一致性与物理运动的合理性。 模型链接…
