京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

一个拥有480亿参数的大模型,每次推理仅激活其中2.7B参数——稀疏率超过94%。在18个基准测试的平均表现中,它以更低的token消耗达到了与同级甚至更大模型相当或更优的准确率。这就是京东发布的JoyAI-LLM Flash。

论文指出,当前大语言模型面临两大交织挑战:token效率低下与计算成本高昂。JoyAI-LLM Flash正是为此而生——一个在50B参数以下区间重新定义性能与token效率平衡的MoE(混合专家)语言模型。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

极致稀疏的架构设计

论文详细阐述了JoyAI-LLM Flash的架构配置:模型共40层Transformer,第一层为标准密集前馈网络,其余39层为稀疏MoE层。MoE模块采用细粒度设计,包含256个专家。每个token通过Top-8门控机制动态选择8个路由专家,并加上1个共享专家,总计激活9个专家。模型隐藏维度为2048,词表大小129K,最大上下文长度128K。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

论文指出,模型采用Muon优化器替代传统Adam,该优化器通过矩阵正交化进行参数优化,在实验中不仅加速了收敛,且训练全程未出现明显的损失尖峰。此外,模型附加了单层密集MTP(多token预测)头,训练时丰富学习信号,推理时原生支持投机解码。

20万亿token的四阶段预训练

JoyAI-LLM Flash Base在超过20万亿token的纯文本语料上完成预训练,学习率调度采用Warmup-Constant-Cosine-Decay,分为四个阶段:
1. 基础阶段:建立通用语言能力。
2. 代码-数学增强阶段:大幅提升代码与数学数据比例。
3. 中期训练阶段:聚焦超高质量token以精炼推理能力,合成数据占比提升至60%以上。
4. 长上下文阶段:将上下文窗口扩展至128K。

数据来源涵盖网络爬取、代码仓库、PDF文档和大规模合成数据。论文在网络数据处理上采用MinHashLSH去重(Jaccard相似度阈值0.9),并训练专用BERT分类器进行语义安全过滤。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

后训练:从SFT到FiberPO

论文将大量计算预算分配给后训练阶段,依次经过SFT(监督微调)、DPO(直接偏好优化)和RL(强化学习)三个阶段。

SFT阶段刻意交错“思考”与“非思考”认知模式的数据,这种混合训练显著提升了指令模型的非思考能力。训练数据涵盖数学、编码、工具使用、安全、创意写作等领域,其中编码和智能体数据占比约30%。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

FiberPO是论文提出的核心RL算法创新,灵感来自纤维丛理论。它将信任域维护分解为全局(轨迹级)和局部(token级)两个组件,提供多尺度稳定性控制。这种分解带来三个关键性质:轨迹独立性、一阶一致性、尺度分离。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡
京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

推理加速与量化

在MTP效率上,JoyAI-LLM Flash实现了1.87倍加速。在8K输入/16K输出设置下,相比GLM-4.7-Flash和Qwen3-30B-A3B分别获得1.45倍和1.07倍的速度提升。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

论文同时采用QAT(量化感知训练)和PTQ(训练后量化)。PTQ实验显示,FP8量化带来17%吞吐提升且几乎无精度损失,W4AFP8量化实现近28%吞吐提升,精度仅下降1.2%。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

最终效果

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

在LiveCodeBench上,JoyAI-LLM Flash以65.6%准确率超越GLM-4.7-Flash-Thinking的64.0%,同时token消耗仅为后者的约14%(7300 vs 53600)。在SWE-bench Verified上达到62.6%,在MATH-500达到98.2%。

当94%的参数在每次推理中保持静默,剩下6%却能交出超越同级别模型的答卷——这或许就是稀疏架构真正的力量。论文指出,未来将通过整合持续学习与持久记忆来扩展模型范式。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

原文标题:JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency
原文链接:https://arxiv.org/abs/2604.03044


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28952

(1)
上一篇 1小时前
下一篇 2025年11月22日 上午11:53

相关推荐

  • Agent Infra:驾驭不确定性,开启智能体工程化落地新纪元

    毋庸置疑,2025年堪称「Agent元年」。 从年初到年末,Agent的热度持续攀升——从Manus到近期的豆包手机,Agent已成为全行业关注的焦点。回顾这一年,也是Agent从技术萌芽走向工程化落地的关键一年。 为此,量子位邀请到两位行业专家——Dify开源生态负责人郑立与腾讯云云原生产品副总经理于广游,共同探讨Agent落地过程中的挑战、机遇与未来。核…

    2025年12月23日
    35100
  • MoGraphGPT:零代码构建复杂交互场景,自然语言+涂鸦让创意可视化

    想要快速制作网页小游戏、交互式动画或教学演示,却受限于复杂的代码逻辑与多元素交互调试?尽管当前的大语言模型或AI Agent能够辅助生成代码和搭建交互场景,但在处理多元素交互时仍易出错,且纯文本的交互方式难以支持直观的视觉调整。 近日,来自香港浸会大学、香港科技大学、香港城市大学及深圳大学的研究团队提出了一种名为MoGraphGPT的创新系统。该系统结合了上…

    2026年3月21日
    16200
  • Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

    AI是否已撞上天花板?这份「最重要的图表」直击灵魂:2019-2025年任务时长每几个月翻倍,揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦,而是触手可及的现实! 2025年即将结束,AI领域的真正高手并非谷歌或OpenAI,而是来自Anthropic的王者编程模型——Claude Opus 4.5。 根据METR最新报告,Claude…

    2025年12月21日
    35300
  • Context Engineering:2026年真正重要的6种技术(完整指南)

    Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。 你的 RAG 系统返回了完美的文档片段,你的提示词也打磨得无可挑剔,但大语言模型(LLM)依然在“幻觉”中编造答案。 例如,当你查询最新的退款政策时,系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策,陷入混乱…

    2026年2月28日
    40500
  • AI编程先锋卡帕西:IDE不会消失,我们需要的是更大的IDE——从文件管理到智能体协同的进化

    在AI编程领域,安德烈·卡帕西(Andrej Karpathy)无疑是先行者。他曾公开表示,自己目前80%的代码由AI生成,其近期的一些开源项目(如autoresearch)也主要由AI完成。 既然AI的编程能力已如此强大,传统的集成开发环境(IDE)是否终将被淘汰?对此,这位AI编程先锋给出了明确的否定答案。 不会。 这一观点迅速引发了广泛关注。 IDE不…

    2026年3月12日
    18300