MoE

  • 告别短视路由!RMS-MoE用记忆检索让MoE专家协作效率倍增

    随着大模型参数规模持续膨胀,Mixture-of-Experts(MoE)已成为平衡模型容量与计算成本的关键架构。然而,在真实世界的 Web 级系统中,MoE 的路由机制存在一个常被忽略的缺陷:它本质上是“无记忆”的。 在搜索、问答、对话等高并发场景中,大量输入并非彼此孤立,而是存在显著的语义重复与结构相似性。传统的 MoE 路由器每次仅基于当前输入独立决策…

    3天前
    11800
  • iPhone 17 Pro跑400B大模型!Flash-MoE让端侧AI突破物理极限

    有时候看到一些大模型项目,总会怀疑是不是真的有外星人在干预地球科技。 就比如今天这个。 刚看到这个 Demo 时确实有点想笑,已经很久没见过吐词如此缓慢的大模型了。观感上就像“闪电”老师。 尽管每秒只有 0.6 个 tokens 的输出速度,这依然是一项令人难以置信的成果。因为这是一个运行在 iPhone 17 Pro 上的 400B 大模型! 准确来说,这…

    2026年5月2日
    22500
  • 国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

    近日,全球具身世界模型权威基准评测平台 WorldArena 正式更新了其最新榜单。由 Manifold AI(流形空间)研发的世界模型 Worldscape 0.2,凭借在物理规律遵循与多源交互理解方面的重大突破,成功登顶 WorldArena 全球第一。这一成绩充分展示了国产世界模型在复杂动态场景生成与具身控制任务中所具备的高精度、强泛化能力以及物理可信…

    2026年4月27日
    28600
  • DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

    昨天下午,DeepSeek 对其开源代码库 DeepGEMM 进行了一次重要更新。此次更新的核心是引入了一个名为 Mega MoE 的新项目。 Mega MoE 由 DeepSeek 基础设施团队的 Chenggang Zhao 等人贡献,相关代码已提交至 GitHub(链接:https://github.com/deepseek-ai/DeepGEMM/p…

    2026年4月17日
    40800
  • MoE模型:稀疏化革命如何突破大语言模型扩展瓶颈?

    引言 过去几年,大规模稠密语言模型的扩展是推动大语言模型 (LLMs) 发展的主要动力。从早期如ULMFiT(约3000万参数)或GPT-2(15亿参数)等模型,到如今拥有数千亿参数的系统,其核心扩展思路始终遵循一个简单的范式: 数据越多 + 参数越多 = 性能越好 缩放定律进一步强化了这一趋势。然而,纯粹扩展稠密模型正面临严峻的现实瓶颈:* 训练成本呈指数…

    2026年3月27日
    64600
  • NCCL EP统一MoE通信生态:打破碎片化,加速大模型推理新纪元

    关键词: MoE(Mixture-of-Experts)、NCCL、GPU 通信、Device-Initiated Communication、大模型推理 在通往通用人工智能的道路上,模型规模正以前所未有的速度扩张。当稠密的 Transformer 模型在计算和参数效率上触及瓶颈时,混合专家(Mixture-of-Experts, MoE)架构凭借其“加人加…

    2026年3月26日
    58500
  • GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

    关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…

    2025年12月24日
    40700