压缩注意力
-
大模型架构新趋势:KV缓存共享与压缩注意力如何降低长上下文成本
过去一段时间,许多用户在使用大模型时都有个明显的感受:Token 总是不够用。 毕竟,为了让模型更“聪明”、更连贯,上下文窗口只会越来越大,这是必然趋势。 但在模型背后,长上下文其实相当“奢侈”。用户消耗的 Token 数量翻倍,背后是模型更大的 KV 缓存和更高的注意力计算成本。 尤其是在推理模型和智能体逐渐成为主流后,长上下文已从一个“宣传亮点”,逐渐变…
过去一段时间,许多用户在使用大模型时都有个明显的感受:Token 总是不够用。 毕竟,为了让模型更“聪明”、更连贯,上下文窗口只会越来越大,这是必然趋势。 但在模型背后,长上下文其实相当“奢侈”。用户消耗的 Token 数量翻倍,背后是模型更大的 KV 缓存和更高的注意力计算成本。 尤其是在推理模型和智能体逐渐成为主流后,长上下文已从一个“宣传亮点”,逐渐变…