MoE模型
-
京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡
一个拥有480亿参数的大模型,每次推理仅激活其中2.7B参数——稀疏率超过94%。在18个基准测试的平均表现中,它以更低的token消耗达到了与同级甚至更大模型相当或更优的准确率。这就是京东发布的JoyAI-LLM Flash。 论文指出,当前大语言模型面临两大交织挑战:token效率低下与计算成本高昂。JoyAI-LLM Flash正是为此而生——一个在5…
-
GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。 近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可…
-
英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升
英伟达发布开源混合专家模型Nemotron-3-Super,120B参数支持百万上下文 英伟达正式发布并开源了其最新的混合专家模型Nemotron-3-Super,该模型拥有1200亿参数,在多项基准测试中表现卓越。 在评估智能体控制能力的PinchBench测试中,Nemotron-3-Super取得了85.6%的高分,位列同类开源模型榜首。此外,在Art…
-
DeepSeek发布Engram条件记忆架构:MoE模型性能提升新路径,实习生主导突破性研究
这一记忆架构有望成为新的Scaling路径。 智东西1月13日报道,昨晚,DeepSeek再次开源,并发布一篇新论文。此次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…
-
QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5
作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…
-
MiniMax-M2实测揭秘:轻量级MoE架构如何实现性能飙升与成本锐减
Minimax近期发布了MiniMax-M2新版本,这是一款轻量、快速且极具成本效益的MoE模型(230B总参数,10B激活参数),专为Max级编码与智能体打造。相比上一代MiniMax-M1,新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…
