大模型扩展的困境
大模型的发展长期遵循一条铁律:依据Scaling Law堆叠参数和数据,模型性能便会遵循负幂律持续提升。然而,这条道路正变得日益昂贵,因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。
在传统的稠密模型中,扩展逻辑简单直接:加宽网络或加深层数。随之而来的硬伤是:参数规模一旦暴涨,计算量和显存需求便会线性飙升。在高质量文本数据日趋枯竭的当下,单纯堆砌稠密参数不仅边际收益骤减,甚至可能出现性能倒退的尴尬局面。传统的Scaling之路,似乎已接近瓶颈。
MoE的局限
为解耦参数与计算量,混合专家模型曾被寄予厚望。它通过稀疏激活的专家子网络,在一定程度上实现了模型容量与计算量的分离。然而,近期研究表明,这并非没有代价的“免费午餐”:稀疏模型通常样本效率较低;随着稀疏度增大,路由负载均衡变得更加困难;且巨大的显存开销与通信压力导致其推理吞吐量往往远低于同等激活参数量的稠密模型。
那么,大语言模型是否存在新的扩展方向,能带领我们走出这一困境?
新维度:Token-Indexed参数
近日,上海交通大学与小红书Hi Lab的联合研究团队提出了一种全新的扩展维度:Token-Indexed Parameters。该方法不依赖主干参数扩展,也不采用稀疏计算路径,而是通过为每个Token引入调制向量,以“查表+逐元素调制”的方式提升模型容量。
研究团队提出的JTok / JTok-M模块,可作为插件形式挂载在Transformer的每一层,形成静态(JTok)或上下文感知的动态(JTok-M)调制路径,构建Token与主干路径的交互桥梁。更关键的是,这种机制几乎不增加算力和显存开销,却能带来显著且稳定的性能提升。
- 性能提升显著:在从650M到61B的模型规模中,JTok-M显著降低了损失值,并在多个下游任务中大幅提升分数:MMLU +4.1,ARC +8.3,CEval +8.9。达到相同性能时,JTok-M可节省约三分之一的算力需求。
- 扩展规律清晰:其扩展效果呈现出清晰可预测的幂律规律,可独立扩展并量化收益,完全符合构建新一代LLM Scaling Law的要素。
这一创新构建了稠密模型、MoE之外的第三条扩展路径,为未来大模型的发展打开了新方向:
无需增加算力、不依赖更多数据,仅通过结构设计与查表调制,就能持续扩大模型容量,重塑性能与计算之间的效率前沿。

- 论文标题:JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation
- 论文链接:https://www.arxiv.org/abs/2602.00800
轻量插件式改造:容量飙升,计算量几乎不变
该方法的核心思想是利用Token ID直接查表获取调制向量,再通过逐元素乘加操作注入主干网络,从而实现模型容量的提升,而浮点运算量几乎保持不变。

JTok:静态调制
与传统扩展方式不同,JTok并非通过加深加宽网络结构来扩容,而是为每个Token引入一个专属调制向量。在Transformer的每一层,该调制向量通过逐元素乘法对MLP的残差输出进行调制,实现无侵入式的容量注入。
具体而言:所有调制向量存储在一个嵌入表中,每个Token在每一层通过其ID查表获得对应的调制向量。该向量经归一化后,与当前层MLP的残差输出进行逐元素相乘,再写回残差路径。
整个过程无需修改主干网络结构,仅通过轻量的插件式外挂即可完成有效参数的注入。更重要的是,它不会显著增加FLOPs,也不引入额外的通信瓶颈,对模型原有的训练/推理吞吐量影响甚微。
JTok-M:动态调制
JTok虽有效,但存在两点局限:一是参数量扩展不够灵活;二是同一个Token在不同上下文中语义千差万别,始终使用同一个静态调制向量可能无法充分适配实际场景。
JTok-M为此引入了两个核心机制以突破限制:
- 调制向量池:每个Token不再仅有一个向量,而是拥有一组候选向量,构成一个语义子空间。
- 上下文路由器:根据Token当前上下文的隐状态,动态选择Top-K个候选向量并进行加权融合,形成最终的上下文感知调制向量。
这种机制同时实现了语义敏感、稀疏激活与插件扩展三重优势,让模型在几乎不增加核心计算量的情况下获得强大的上下文感知能力。为确保各候选向量充分参与训练,JTok-M还引入了类似MoE的路由负载均衡损失,以维持调制空间的高效、稳定利用。
工程落地:实现三分之一的算力节省
尽管JTok/JTok-M引入了大量新参数,但其系统设计采用了“查表式插件+旁路异步调度”的范式,有效隔离并隐藏了计算与访存压力:
- 查表操作可与主干计算异步重叠,访存开销被调度隐藏。
- 利用Token频率的长尾分布特性,对同一Token的多次查表请求可合并访问,大幅减少内存压力。
- 训练阶段支持嵌入并行,推理阶段支持CPU Offload,仅传输所需的向量片段。
在一系列优化的加持下,即便将JTok-M扩展到可观容量,其训练吞吐损失也能控制在7%以内;推理阶段的吞吐损失低于7.3%,且GPU侧几乎无需额外的显存占用,兼顾了性能提升与工程落地的实用性。
重新定义Scaling Law
Scaling Law是理解大模型发展的核心指南:模型性能通常与参数规模、数据量和计算量呈现幂律关系——要提升性能,就必须同步增加计算资源。
JTok-M的出现,打破了这种性能与算力的绑定逻辑,实现了对传统Scaling Law的一次横向扩展。在论文中,为量化JTok-M的扩展潜力,作者重点回答了以下两个关键问题:
- 当主干模型规模扩大时,JTok-M带来的收益能否保持稳定?
- 当扩展JTok-M自身的参数规模时,它表现出怎样的Scaling行为?
结论令人振奋。
结论一:适配超大主干,收益稳定,节省35%算力
第一个核心问题关乎JTok-M能否应用于真正的大模型:当主干模型从数千万参数扩展到数百亿规模时,其性能提升是否会失效?
作者并未仅依赖实验,而是首先从理论层面进行了阐释:将Token-Indexed参数融入经典的Scaling Law框架,并提出了“有效参数”的关键假设。
传统模型的性能由主干激活参数量(N_c)和训练数据量决定。而JTok-M新增的参数(N_n)会与主干参数形成一个扩展比例 η = N_n / N_c。再考虑到JTok-M自身的稀疏特性(嵌入表的稀疏性及Top-K激活的稀疏性),这些新参数会有一个有效折扣因子 γ,最终组合成有效参数量 N_eff。

将有效参数代入原有的缩放定律公式后,一个清晰的规律浮现出来:JTok-M 并未改变模型对算力和数据的基本依赖关系,而是使整个 性能-算力 帕累托前沿曲线整体向下平移了一段距离。这意味着,无论模型规模大小,要达到相同的性能水平,JTok-M 所需的训练算力都显著减少,且这一收益是稳定且与主干模型规模无关的。

后续的严格实验完全验证了这一推断:在对数坐标下,JTok-M 的性能-算力前沿拟合线与原生模型基线几乎完全平行,仅整体下移了一个固定间隔。计算表明,要达到与原生 MoE 模型同等的性能,JTok-M 可直接节省 35% 的训练算力。这一节省比例在不同模型规模和训练预算下均保持稳定,验证了其理论上的规模不变性。对于企业而言,这直接转化为降本增效:同等预算可训练出更强的模型,或以更低的成本达成目标效果。

结论二:自身参数遵循幂律缩放,扩容收益明确
第二个核心问题是:JTok-M 自身的参数扩容后,性能提升是否会快速饱和?它能否成为一个独立的扩展维度?
研究者进行了一组精准的控制变量实验:固定主干模型结构与训练数据量,仅通过调整参数扩展率 η 来增加 JTok-M 的容量。结果呈现出显著的规律性:在对数坐标下,模型的验证损失随 JTok-M 参数增加近乎线性下降——JTok-M 参数每翻一倍,测试损失稳定降低约 0.0118,且未出现性能饱和迹象。

这一发现意义重大:JTok-M 的 token-indexed 参数本身构成了一个与主干参数、数据量、专家稀疏度完全正交的新扩展维度。它无需依赖主干模型增加参数,也无需额外堆砌高质量数据,仅通过扩大 JTok-M 自身的参数规模,就能稳定提升模型性能,且效果可被精准预测。
如同稠密模型的缩放定律,开发者现在可以依据此规律进行精确规划:为达成特定的损失降低目标,需要为 JTok-M 增加多少参数,一目了然,避免了盲目试错。
这正是缩放定律的核心价值——它并非一次性的性能提升,而是为大模型发展提供了一条稳定、可持续且代价可控的新路径,使后续的模型迭代有章可循。
总结而言,传统的 Scaling Law 主要围绕两个维度:参数规模(N)与数据规模(D)。MoE 试图通过稀疏激活来释放计算效率,但仍受限于 N 与计算量(C)的线性关系。
JTok-M 的意义在于:
* 引入了一种新的扩展形式:token-indexed capacity。
* 构建了从理论 → 实现 → 验证的完整闭环。
* 将 Scaling Law 从二维推向三维:参数、数据、token-indexed 结构共同塑造未来大模型的成长路线。
JTok-M 不只是一个插件,更是对大模型扩展方式的一次重新定义。
下游泛化能力:知识、推理与数学能力全面提升
仅讨论缩放定律与算力节省还不够,JTok/JTok-M 能否落地,关键在于其在实际下游任务中的表现——能否切实提升模型的知识储备、推理能力乃至代码与数学解题水平。
研究者在知识、推理、代码、数学四大类共 14 个子任务上进行了全面验证,测试覆盖稠密和 MoE 两种基座、多种参数规模的模型,并保持主干网络、训练数据与流程完全一致,仅外挂 JTok/JTok-M 模块。结果显示,模型在全任务上获得提升,且模型规模越大、任务越难,收益越显著。
稠密基座:小模型获得显著提升
在 1.5B 参数的稠密模型上,添加 JTok 模块后,14 项任务的平均准确率直接提升 4.32 个百分点,相当于获得了近 20% 的相对收益。
其中关键任务提升尤为突出:
* 通用知识推理(MMLU):+4.6 个百分点,知识储备更扎实。
* 科学常识推理(ARC-C):+5.8 个百分点,对复杂常识的理解更深入。

MoE 基座:JTok-M 显著增强推理能力
在 MoE 基座上,JTok 已能带来平均 2.5 个百分点的稳定提升,而升级后的 JTok-M 则进一步放大收益,尤其在推理、数学等高难度任务上表现突出:
* 总参数量 1.5B(激活参数量 250M):平均准确率 +3.91。
* 总参数量 3.2B(激活参数量 500M):平均准确率 +5.59,其中科学常识推理(ARC-C)+7.25,数学解题(GSM8K)+6.31。
这表明 JTok-M 不仅帮助模型记忆更多知识,更切实增强了其逻辑推理与复杂问题解决能力——这正是大模型落地的核心需求之一。
17B 大模型验证:规模越大,收益越显著,样本效率高
下游任务的收益并非小模型专属。研究者在总参数量 17B(激活参数量 2B)的超大 MoE 模型上进行了验证(最终总参数量达 61B),并全程跟踪了 MMLU、ARC-C、CEval 等 6 个核心基准的训练曲线:

曲线趋势清晰显示了其优势:
* 样本效率高:训练仅进行数 B token 后,搭载 JTok-M 的模型已在各项任务上全面超越原生 MoE,无需等到训练后期即可见明显提升。
* 大模型收益更显著:训练结束时,MMLU 提升约 4 个百分点,而 ARC-C(科学推理)、CEval/CMMLU(中文知识推理)等高难度任务,提升幅度达 8-9 个百分点。
核心结论:全场景适配,任务越难提升越显著
JTok/JTok-M 的下游泛化能力凸显两大亮点:
* 适配性强:无论是稠密还是 MoE 基座,从小模型到 17B 超大模型,均可稳定提升性能,无需改动原有训练流程,插件式升级即见效。
* 针对性提升:不仅能提升知识记忆类任务表现,更能强化推理、数学等复杂任务的能力,且任务难度越高、模型规模越大,提升效果越显著。这精准应对了大模型工业化落地的核心需求。
相关工作对比
近期,通过扩展嵌入维度来突破大模型参数效率瓶颈,已成为一个重要研究方向。该领域涌现了多篇富有启发性的工作,包括 DeepSeek 的 Engram、Meta 的 STEM,以及本文介绍的 JTok-M。虽然三者均致力于通过大规模嵌入来低成本扩展模型容量,但它们在设计哲学、切入点与核心洞察上各有侧重,共同描绘了这一领域的广阔前景:

文末注:JTok 在技术上代表 Joint Token。其命名亦蕴含深意:“Joint” 寓意 “连接” 与 “交通”,其发音与 “交通” 契合;其中更藏着一个交大人心照不宣的梗 —— “JT(交通)OK”。此命名沿袭了 jAccount 的校园文化传统,以此向上海交通大学 130 周年校庆致敬。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23768
