SLO合规
-
驯服GPU集群中的“吵闹邻居”:MIT等高校提出轻量级控制器,实现可预测LLM服务,TTFT p99降低10-15%
关键词:GPU 多租户、LLM 服务、SLO 合规、PCIe 感知放置、动态 MIG、TTFT 在如今大模型(LLM)服务无处不在的时代,无论是智能助手、代码生成还是实时翻译,用户都期望获得快速、稳定的响应。然而,在共享的 GPU 集群上部署这些服务时,一个普遍而棘手的问题悄然浮现——“吵闹的邻居”效应。 想象一下,你正在参加一场重要的视频会议,而隔壁却在装…