持久化内核

大模型推理

Fleet：多芯粒GPU时代的新编程范式，破解大模型推理效率瓶颈

一、架构断裂：当“单片思维”撞上“芯粒现实” 现代GPU架构已转向基于芯粒（Chiplet）的多芯片设计，例如AMD Instinct MI300X/MI350和NVIDIA Blackwell。然而，主流的CUDA/HIP执行模型并未完全适应这一根本性的架构变迁。一个核心痛点是：编程模型缺乏直接的方法来表达工作组群之间的数据亲和性，或将计算任务限定到特定芯…

2天前
130000