MoE模型

开源项目

英伟达发布最强开源龙虾模型Nemotron 3 Super，120B参数、百万上下文窗口、5倍吞吐量提升

英伟达发布开源混合专家模型Nemotron-3-Super，120B参数支持百万上下文英伟达正式发布并开源了其最新的混合专家模型Nemotron-3-Super，该模型拥有1200亿参数，在多项基准测试中表现卓越。在评估智能体控制能力的PinchBench测试中，Nemotron-3-Super取得了85.6%的高分，位列同类开源模型榜首。此外，在Art…

6天前

263000

大模型工程

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

这一记忆架构有望成为新的Scaling路径。智东西1月13日报道，昨晚，DeepSeek再次开源，并发布一篇新论文。此次，他们提出了一种全新的“条件记忆”机制——Engram，旨在让MoE模型在保持巨量参数的同时，更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…

2026年1月13日

235000

大模型工程

QwenLong-L1.5：一套配方三大法宝，让30B MoE模型长文本推理媲美GPT-5

作为大模型从业者或研究员，你是否也曾为某个模型的“长文本能力”感到兴奋，却在实践中发现其表现远未达到预期？你很可能遇到过以下困境之一：虚假的繁荣：模型在“大海捞针”（Needle-in-a-Haystack）等简单检索测试中表现出色，营造了长文本问题已解决的假象。然而，当任务升级为需要串联分散证据、整合全局信息的多跳推理（multi-hop reason…

2025年12月29日

230000

大模型评测

MiniMax-M2实测揭秘：轻量级MoE架构如何实现性能飙升与成本锐减

Minimax近期发布了MiniMax-M2新版本，这是一款轻量、快速且极具成本效益的MoE模型（230B总参数，10B激活参数），专为Max级编码与智能体打造。相比上一代MiniMax-M1，新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…

2025年11月4日

200000