京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

一个拥有480亿参数的大模型,每次推理仅激活其中2.7B参数——稀疏率超过94%。在18个基准测试的平均表现中,它以更低的token消耗达到了与同级甚至更大模型相当或更优的准确率。这就是京东发布的JoyAI-LLM Flash。

论文指出,当前大语言模型面临两大交织挑战:token效率低下与计算成本高昂。JoyAI-LLM Flash正是为此而生——一个在50B参数以下区间重新定义性能与token效率平衡的MoE(混合专家)语言模型。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

极致稀疏的架构设计

论文详细阐述了JoyAI-LLM Flash的架构配置:模型共40层Transformer,第一层为标准密集前馈网络,其余39层为稀疏MoE层。MoE模块采用细粒度设计,包含256个专家。每个token通过Top-8门控机制动态选择8个路由专家,并加上1个共享专家,总计激活9个专家。模型隐藏维度为2048,词表大小129K,最大上下文长度128K。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

论文指出,模型采用Muon优化器替代传统Adam,该优化器通过矩阵正交化进行参数优化,在实验中不仅加速了收敛,且训练全程未出现明显的损失尖峰。此外,模型附加了单层密集MTP(多token预测)头,训练时丰富学习信号,推理时原生支持投机解码。

20万亿token的四阶段预训练

JoyAI-LLM Flash Base在超过20万亿token的纯文本语料上完成预训练,学习率调度采用Warmup-Constant-Cosine-Decay,分为四个阶段:
1. 基础阶段:建立通用语言能力。
2. 代码-数学增强阶段:大幅提升代码与数学数据比例。
3. 中期训练阶段:聚焦超高质量token以精炼推理能力,合成数据占比提升至60%以上。
4. 长上下文阶段:将上下文窗口扩展至128K。

数据来源涵盖网络爬取、代码仓库、PDF文档和大规模合成数据。论文在网络数据处理上采用MinHashLSH去重(Jaccard相似度阈值0.9),并训练专用BERT分类器进行语义安全过滤。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

后训练:从SFT到FiberPO

论文将大量计算预算分配给后训练阶段,依次经过SFT(监督微调)、DPO(直接偏好优化)和RL(强化学习)三个阶段。

SFT阶段刻意交错“思考”与“非思考”认知模式的数据,这种混合训练显著提升了指令模型的非思考能力。训练数据涵盖数学、编码、工具使用、安全、创意写作等领域,其中编码和智能体数据占比约30%。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

FiberPO是论文提出的核心RL算法创新,灵感来自纤维丛理论。它将信任域维护分解为全局(轨迹级)和局部(token级)两个组件,提供多尺度稳定性控制。这种分解带来三个关键性质:轨迹独立性、一阶一致性、尺度分离。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡
京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

推理加速与量化

在MTP效率上,JoyAI-LLM Flash实现了1.87倍加速。在8K输入/16K输出设置下,相比GLM-4.7-Flash和Qwen3-30B-A3B分别获得1.45倍和1.07倍的速度提升。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

论文同时采用QAT(量化感知训练)和PTQ(训练后量化)。PTQ实验显示,FP8量化带来17%吞吐提升且几乎无精度损失,W4AFP8量化实现近28%吞吐提升,精度仅下降1.2%。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

最终效果

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

在LiveCodeBench上,JoyAI-LLM Flash以65.6%准确率超越GLM-4.7-Flash-Thinking的64.0%,同时token消耗仅为后者的约14%(7300 vs 53600)。在SWE-bench Verified上达到62.6%,在MATH-500达到98.2%。

当94%的参数在每次推理中保持静默,剩下6%却能交出超越同级别模型的答卷——这或许就是稀疏架构真正的力量。论文指出,未来将通过整合持续学习与持久记忆来扩展模型范式。

京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡

原文标题:JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency
原文链接:https://arxiv.org/abs/2604.03044

huggingface地址:https://huggingface.co/collections/jdopensource/joyai-llm-flash


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28952

(1)
上一篇 2026年4月7日 上午11:26
下一篇 2026年4月7日 下午1:17

相关推荐

  • 构建本体驱动GraphRAG:从数据填埋场到零噪声知识图谱的蜕变之路

    构建一个自我演进的知识图谱,它不仅能存储数据,更能理解、校验并持续演化。 gemini 在初次构建 GraphRAG 系统时,我遵循了多数教程的路径:将文档输入大语言模型(LLM),抽取实体,将生成的 JSON 导入 Neo4j,然后宣告完成。在演示环境中,一切运行完美。直到我将它应用于真实的医疗记录。 问题随之暴露。LLM 在一份报告中抽取了“John D…

    2025年12月15日
    33400
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…

    2025年12月20日
    26500
  • 卡帕西力荐NanoClaw:仅4000行代码的AI执行中枢,开启本地化智能新纪元

    自从OpenClaw爆火后,各种Claw开始轮番登场。 Nano Claw 、Zero Claw 、Pico Claw 刷屏,连卡帕西都坐不住了,为了“抓虾”,他一个百米冲刺奔向苹果店抢Mac Mini,要好好拆解一番爆火的各种Claw们。 店员还奇了怪了,一脸懵地跟卡帕西嘟囔:不知道为啥,这玩意儿最近卖爆了…… 大神顺利购入Mac Mini过后,心满意足一…

    2026年2月22日
    75100
  • 淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

    淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏(上) 一场令人“汗流浃背”的狼人杀对局正在上演:天崩开局的倒钩狼悍跳预言家、冲锋狼因言多必失、神职阵营掌控全场确保每晚都是平安夜……而最令人惊讶的是,这些高能玩家并非人类,而是由不同大模型驱动的AI智能体(Agent)。 这场颠覆传统游戏体验的AI狼人杀大乱斗,源自淘宝推…

    2025年12月23日
    53200
  • OpenAI研究员揭秘:Codex内部评估机制与AI产品落地的50+实战经验

    昨日,两位来自 OpenAI 及前微软的 AI 产品一线从业者——Aishwarya Naresh Reganti 与 Kiriti Badam,在 Lenny 的播客节目中深入分享了他们在超过 50 个 AI 产品落地项目中的实践经验与教训。 这些经验源于反复的试错与总结。播客主持人 Lenny 提炼出一个核心观点:痛苦是新的护城河。 两位嘉宾均具备深厚的…

    2026年1月12日
    49900