在大型语言模型(LLM)飞速发展的今天,开发者和企业正面临着一个两难的困境:为了追求更高的准确率,模型在推理时往往会消耗海量的 Token,导致计算成本居高不下、响应延迟难以忍受。
“测试时计算(Test-time computation)”固然能提升性能,但在实际落地中,效率才是王道。
京东(JD.com)重磅宣布开源 JoyAI-LLM Flash!这是一款拥有 480 亿(48B)总参数、专注打破“性能与效率”权衡边界的混合专家(MoE)指令微调模型。凭借首创的强化学习算法和全栈的推理优化,JoyAI-LLM Flash 在全面对标甚至超越同规模前沿大模型的同时,实现了令人惊叹的 Token 效率和推理加速。
🌟 亮点一:极致的 Token 效率,花最少的 Token 办最大的事
评价一个大模型是否优秀,不能只看准确率,还要看它“费不费话”。JoyAI-LLM Flash 在研发之初,就将“Token 效率”作为核心优化目标。它能精准地在“深度思考(Thinking)”和“快速响应(Non-thinking)”模式之间灵活切换。

在长文本、数学、代码等核心维度的严格测试中,JoyAI-LLM Flash 实现了极高的性价比。以 LiveCodeBench 评测为例,JoyAI-LLM Flash 的准确率比 GLM-4.7-Flash-Thinking 还要高出 2.4%,但 Token 消耗量却惊人地减少了 85%!

🛠️ 亮点二:精巧的架构设计,48B 规模仅需激活 2.7B
为什么 JoyAI-LLM Flash 能跑得这么快?答案在于其极其克制且高效的架构设计。
- 海量知识淬炼:在高达 20 万亿 高质量 Token 的海量语料上进行了扎实的预训练。
- 极致稀疏的 MoE 架构:模型总参数量为 489 亿,但通过细粒度的专家路由(256个专家中动态激活8个,外加1个共享专家),每次前向传播实际激活的参数仅有 27 亿(包含 Embedding 层为 32 亿)。
- 高吞吐的 MLA 机制:汲取了当前最先进的注意力机制(Multi-head Latent Attention),在保证模型强悍记忆力和推理能力的同时,大幅降低了推理时的 KV Cache 内存开销。
🧠 亮点三:首创 FiberPO 强化学习算法,稳中求胜
在后训练(Post-Training)阶段,JoyAI-LLM Flash 投入了巨大的算力成本,并带来了理论级别的创新。
为了解决大语言模型在多环境、多任务强化学习中容易出现的“奖励崩溃”或“策略漂移”问题,京东团队从代数拓扑中的“纤维丛理论(Fibration Theory)”汲取灵感,提出了全新的强化学习算法——FiberPO。
FiberPO 将模型的信任域维护巧妙地分解为“全局”和“局部”两个组件,提供了统一的多尺度稳定性控制。它让模型能够在极其复杂的智能体(Agent)和工具调用(Tool-use)轨迹中,越学越聪明,不仅显著降低了回复的幻觉,还大幅提升了自主解决复杂问题的能力。
⚡ 亮点四:端到端软硬协同,推理速度狂飙 1.87 倍!
只在模型结构上做文章还不够,JoyAI-LLM Flash 从训练伊始就将“推理部署”考虑在内:
- 多 Token 预测(MTP):引入轻量级的密集型 MTP 模块。在预测阶段,模型能够原生支持投机解码(Speculative Decoding),一次预测多个未来 Token。这使其推理速度相比非 MTP 版本 暴增 1.87 倍,远超业界的 1.39x ~ 1.61x 水平。
- 量化感知训练(QAT)与双重量化(DoubleQuant):原生支持低比特演进。即便在极低精度下也能保持优异性能。

🎁 诚意开源,生态共建
打破技术壁垒,赋能千行百业。目前,JoyAI-LLM Flash 及其衍生版本已全面开源至 Hugging Face!
为了满足各类开发者的部署需求,京东此次开源提供了极具诚意的“全家桶”方案:
- JoyAI-LLM Flash Base:强大的预训练基座模型。
- JoyAI-LLM Flash FP16:经过 SFT、DPO 和 RL 完整后训练的高性能模型。
- FP8 / INT8 版本:完美平衡性能与效率,完美适配各大主流 AI 加速卡。
- INT4 / GGUF 版本:专为显存极度受限的环境(如个人电脑、消费级显卡、边缘计算设备)打造的超高压缩率版本。
💡 探索 AI 效率的新纪元,从 JoyAI-LLM Flash 开始。
还在为部署大模型高昂的算力账单发愁吗?前往 Hugging Face,立即下载体验这款在 Sub-50B 领域重新定义效率的标杆级开源巨作吧!
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29039


