算子分发

告别底层算子烦恼：Hugging Face Kernel Hub让CUDA、Metal内核像模型一样即插即用，推理加速触手可及

在大型模型系统中，性能瓶颈往往并非源自模型架构本身，而是隐藏在那些看似微不足道的底层算子中。激活函数的融合操作、KV Cache的访问、4-bit权重的量化与反量化——这些细节决定了GPU或Apple Silicon能否真正发挥其全部潜力。过去，这些高性能计算内核分散在vLLM、FlashAttention、bitsandbytes、MLX、Triton等…

开源项目 15小时前
37000