算子优化
-
DeepSeek开源TileKernels:用Python写的GPU算子逼近硬件性能上限
关键词: TileKernels、TileLang、MoE 路由、低精度量化、算子融合 在大模型训练与推理的工程实践中,算子性能往往是决定系统最终效率的关键因素。 DeepSeek 于 2026 年 4 月开源的 TileKernels 项目,以一种令人意想不到的方式回应了这一挑战——完全不使用 CUDA C++,仅凭 Python 领域的专用语言 Tile…