系统表征
-
GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略
关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…
关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…