持久化内核
-
Fleet:多芯粒GPU时代的新编程范式,破解大模型推理效率瓶颈
一、架构断裂:当“单片思维”撞上“芯粒现实” 现代GPU架构已转向基于芯粒(Chiplet)的多芯片设计,例如AMD Instinct MI300X/MI350和NVIDIA Blackwell。然而,主流的CUDA/HIP执行模型并未完全适应这一根本性的架构变迁。一个核心痛点是:编程模型缺乏直接的方法来表达工作组群之间的数据亲和性,或将计算任务限定到特定芯…
一、架构断裂:当“单片思维”撞上“芯粒现实” 现代GPU架构已转向基于芯粒(Chiplet)的多芯片设计,例如AMD Instinct MI300X/MI350和NVIDIA Blackwell。然而,主流的CUDA/HIP执行模型并未完全适应这一根本性的架构变迁。一个核心痛点是:编程模型缺乏直接的方法来表达工作组群之间的数据亲和性,或将计算任务限定到特定芯…