混合专家模型
-
Meta与ThinkMachine联手突破MoE训练内存墙:MoEBlaze框架实现内存降低4倍、训练加速6倍
关键词: MoEBlaze 、内存墙、MoE 训练 、索引化路由 在当今大模型浪潮中,参数规模已突破万亿,训练成本与内存压力成为制约模型规模继续扩大的关键瓶颈。混合专家模型(Mixture-of-Experts, MoE) 因其能够以稀疏激活的方式实现万亿参数级别的模型训练,已成为大规模语言模型的主流架构之一。 然而,MoE 的稀疏性在降低计算密度的同时,也…
-
Gemini 3 揭示AI研发新范式:从算法灵感转向系统工程,精细化时代如何重塑智能进化?
内容来源 —— “We’re Ahead of Where I Thought We’d Be — Gemini 3 & the Future of AI”观看网址:https://www.youtube.com/watch?v=cNGDAqFXvew 在AI模型性能持续突破的今天,我们或许需要重新审视一个问题:驱动智能进化的,究竟是偶然的算法灵感,…