负载均衡
-
北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
关键词: Agentic LLM、KV缓存、PD分离、存储I/O、负载均衡 近年来,大型语言模型(LLM)的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色,交互回合有限,上下文相对较短。然而,随着技术的发展,LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体(Agent)系统。这类系统通过多轮交互与环境(如代码解释器、浏览器、终端…
-
微软开源Sigma-MoE-Tiny:40:1极致稀疏比MoE模型,0.5B激活参数实现10B级性能突破
关键词: Mixture-of-Experts (MoE)、超高频稀疏度、渐进稀疏化调度、Sigma-MoE-Tiny、专家负载均衡 一次对 MoE 架构负载均衡机制的深度剖析与重构 SIGMA-MOE-TINY TECHNICAL REPORT https://qghuxmu.github.io/Sigma-MoE-Tiny https://github.…