压缩注意力

大模型工程

大模型架构新趋势：KV缓存共享与压缩注意力如何降低长上下文成本

过去一段时间，许多用户在使用大模型时都有个明显的感受：Token 总是不够用。毕竟，为了让模型更“聪明”、更连贯，上下文窗口只会越来越大，这是必然趋势。但在模型背后，长上下文其实相当“奢侈”。用户消耗的 Token 数量翻倍，背后是模型更大的 KV 缓存和更高的注意力计算成本。尤其是在推理模型和智能体逐渐成为主流后，长上下文已从一个“宣传亮点”，逐渐变…

3小时前
18000