长上下文推理

大模型推理

RL驱动的KV缓存压缩框架KV Policy：超越启发式策略SOTA性能，仅增1%预填充计算开销

关键词：大语言模型、KV 缓存、强化学习、缓存驱逐、长上下文推理自 Transformer 架构诞生以来，大型语言模型（LLMs）在自然语言处理领域取得了革命性进展。从文本生成到逻辑推理，从多轮对话到长文档理解，LLMs 的能力边界不断拓展。然而，模型性能的飞跃背后，是日益严峻的推理效率挑战——当处理长序列或交互式会话时，KV（Key-Value）缓存成为…

19小时前
7000