KV缓存 - 鲸林向海

RL驱动的KV缓存压缩框架KV Policy：超越启发式策略SOTA性能，仅增1%预填充计算开销

关键词：大语言模型、KV 缓存、强化学习、缓存驱逐、长上下文推理自 Transformer 架构诞生以来，大型语言模型（LLMs）在自然语言处理领域取得了革命性进展。从文本生成到逻辑推理，从多轮对话到长文档理解，LLMs 的能力边界不断拓展。然而，模型性能的飞跃背后，是日益严峻的推理效率挑战——当处理长序列或交互式会话时，KV（Key-Value）缓存成为…

2026年3月1日

90000

大模型推理

北大清华联手DeepSeek突破Agentic LLM推理瓶颈！DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

关键词： Agentic LLM、KV缓存、PD分离、存储I/O、负载均衡近年来，大型语言模型（LLM）的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色，交互回合有限，上下文相对较短。然而，随着技术的发展，LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体（Agent）系统。这类系统通过多轮交互与环境（如代码解释器、浏览器、终端…

2026年2月26日

158000

AI产业动态

高通QuoKA：无需训练、硬件无关，88% KV缩减实现5倍推理加速，革新LLM预填充效率

关键词：大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速无需训练、不依赖特定硬件，仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。近年来，随着大型语言模型（LLM）的广泛应用，其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…

2026年2月11日

89000

大模型推理

微信AI突破扩散模型推理瓶颈：WeDLM实现vLLM部署3倍加速，低熵场景超10倍

腾讯微信 AI 团队提出 WeDLM（WeChat Diffusion Language Model），通过在标准因果注意力下实现扩散式解码，在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速，低熵场景更可达 10 倍以上，同时保持甚至提升生成质量。引言自回归（AR）生成是当前大语言模型的主流解码范式，但其逐 token 生成的特性…

2026年1月3日

184000