算子级抢占
-
FlowPrefill:突破LLM推理瓶颈,算子级抢占实现5.6倍吞吐提升与严格SLO保障
关键词: LLM 服务系统 、预填充、 队头阻塞 、 _ SLO 感知调度_ 、 算子级抢占 、事件驱动调度 当我们正在使用一个智能聊天机器人,输入了一个简短的问题,满怀期待地等待回复。然而, 由于服务器正在处理一个长篇文档总结任务,请求被堵在后面,迟迟得不到响应,眼睁睁看着“正在输入”的提示转个不停 。这种体验像极了早高峰堵车——一辆大货车慢悠悠地走在前面…