上海交通大学
-
JTok:大模型扩展新维度!上海交大提出token-indexed参数,不增算力也能提升性能
大模型扩展的困境 大模型的发展长期遵循一条铁律:依据Scaling Law堆叠参数和数据,模型性能便会遵循负幂律持续提升。然而,这条道路正变得日益昂贵,因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。 在传统的稠密模型中,扩展逻辑简单直接:加宽网络或加深层数。随之而来的硬伤是:参数规模一旦暴涨,计算量和显存需求便会线性飙升。在高质…