上海交通大学

  • MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

    长上下文推理已成为视觉-语言模型(VLM)和大语言模型(LLM)的默认形态。然而,真正的性能瓶颈往往潜藏在推理端的键值(KV)缓存中。随着上下文长度增加,KV缓存线性膨胀,导致显存占用与带宽开销飙升,进而严重压制模型吞吐量。 因此,KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存,却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

    2026年3月31日
    15500
  • JTok:大模型扩展新维度!上海交大提出token-indexed参数,不增算力也能提升性能

    大模型扩展的困境 大模型的发展长期遵循一条铁律:依据Scaling Law堆叠参数和数据,模型性能便会遵循负幂律持续提升。然而,这条道路正变得日益昂贵,因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。 在传统的稠密模型中,扩展逻辑简单直接:加宽网络或加深层数。随之而来的硬伤是:参数规模一旦暴涨,计算量和显存需求便会线性飙升。在高质…

    2026年3月3日
    25900