上海交通大学

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

长上下文推理已成为视觉-语言模型（VLM）和大语言模型（LLM）的默认形态。然而，真正的性能瓶颈往往潜藏在推理端的键值（KV）缓存中。随着上下文长度增加，KV缓存线性膨胀，导致显存占用与带宽开销飙升，进而严重压制模型吞吐量。因此，KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存，却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

2026年3月31日

155000

大模型工程

JTok：大模型扩展新维度！上海交大提出token-indexed参数，不增算力也能提升性能

大模型扩展的困境大模型的发展长期遵循一条铁律：依据Scaling Law堆叠参数和数据，模型性能便会遵循负幂律持续提升。然而，这条道路正变得日益昂贵，因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。在传统的稠密模型中，扩展逻辑简单直接：加宽网络或加深层数。随之而来的硬伤是：参数规模一旦暴涨，计算量和显存需求便会线性飙升。在高质…

2026年3月3日

259000