京东重磅开源！JoyAI-LLM Flash：重新定义中型大模型 Token 效率，48B 参数带来极致推理体验！

在大型语言模型（LLM）飞速发展的今天，开发者和企业正面临着一个两难的困境：为了追求更高的准确率，模型在推理时往往会消耗海量的 Token，导致计算成本居高不下、响应延迟难以忍受。

“测试时计算（Test-time computation）”固然能提升性能，但在实际落地中，效率才是王道。

京东（JD.com）重磅宣布开源 JoyAI-LLM Flash！这是一款拥有 480 亿（48B）总参数、专注打破“性能与效率”权衡边界的混合专家（MoE）指令微调模型。凭借首创的强化学习算法和全栈的推理优化，JoyAI-LLM Flash 在全面对标甚至超越同规模前沿大模型的同时，实现了令人惊叹的 Token 效率和推理加速。

🌟 亮点一：极致的 Token 效率，花最少的 Token 办最大的事

评价一个大模型是否优秀，不能只看准确率，还要看它“费不费话”。JoyAI-LLM Flash 在研发之初，就将“Token 效率”作为核心优化目标。它能精准地在“深度思考（Thinking）”和“快速响应（Non-thinking）”模式之间灵活切换。

京东重磅开源！JoyAI-LLM Flash：重新定义中型大模型 Token 效率，48B 参数带来极致推理体验！

在长文本、数学、代码等核心维度的严格测试中，JoyAI-LLM Flash 实现了极高的性价比。以 LiveCodeBench 评测为例，JoyAI-LLM Flash 的准确率比 GLM-4.7-Flash-Thinking 还要高出 2.4%，但 Token 消耗量却惊人地减少了 85%！

🛠️ 亮点二：精巧的架构设计，48B 规模仅需激活 2.7B

为什么 JoyAI-LLM Flash 能跑得这么快？答案在于其极其克制且高效的架构设计。

海量知识淬炼：在高达 20 万亿 高质量 Token 的海量语料上进行了扎实的预训练。
极致稀疏的 MoE 架构：模型总参数量为 489 亿，但通过细粒度的专家路由（256个专家中动态激活8个，外加1个共享专家），每次前向传播实际激活的参数仅有 27 亿（包含 Embedding 层为 32 亿）。
高吞吐的 MLA 机制：汲取了当前最先进的注意力机制（Multi-head Latent Attention），在保证模型强悍记忆力和推理能力的同时，大幅降低了推理时的 KV Cache 内存开销。

🧠 亮点三：首创 FiberPO 强化学习算法，稳中求胜

在后训练（Post-Training）阶段，JoyAI-LLM Flash 投入了巨大的算力成本，并带来了理论级别的创新。

为了解决大语言模型在多环境、多任务强化学习中容易出现的“奖励崩溃”或“策略漂移”问题，京东团队从代数拓扑中的“纤维丛理论（Fibration Theory）”汲取灵感，提出了全新的强化学习算法——FiberPO。

FiberPO 将模型的信任域维护巧妙地分解为“全局”和“局部”两个组件，提供了统一的多尺度稳定性控制。它让模型能够在极其复杂的智能体（Agent）和工具调用（Tool-use）轨迹中，越学越聪明，不仅显著降低了回复的幻觉，还大幅提升了自主解决复杂问题的能力。

⚡ 亮点四：端到端软硬协同，推理速度狂飙 1.87 倍！

只在模型结构上做文章还不够，JoyAI-LLM Flash 从训练伊始就将“推理部署”考虑在内：

多 Token 预测（MTP）：引入轻量级的密集型 MTP 模块。在预测阶段，模型能够原生支持投机解码（Speculative Decoding），一次预测多个未来 Token。这使其推理速度相比非 MTP 版本 暴增 1.87 倍，远超业界的 1.39x ~ 1.61x 水平。
量化感知训练（QAT）与双重量化（DoubleQuant）：原生支持低比特演进。即便在极低精度下也能保持优异性能。

🎁 诚意开源，生态共建

打破技术壁垒，赋能千行百业。目前，JoyAI-LLM Flash 及其衍生版本已全面开源至 Hugging Face！

为了满足各类开发者的部署需求，京东此次开源提供了极具诚意的“全家桶”方案：

JoyAI-LLM Flash Base：强大的预训练基座模型。
JoyAI-LLM Flash FP16：经过 SFT、DPO 和 RL 完整后训练的高性能模型。
FP8 / INT8 版本：完美平衡性能与效率，完美适配各大主流 AI 加速卡。
INT4 / GGUF 版本：专为显存极度受限的环境（如个人电脑、消费级显卡、边缘计算设备）打造的超高压缩率版本。

💡 探索 AI 效率的新纪元，从 JoyAI-LLM Flash 开始。

还在为部署大模型高昂的算力账单发愁吗？前往 Hugging Face，立即下载体验这款在 Sub-50B 领域重新定义效率的标杆级开源巨作吧！

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29039