GPU内核优化

  • Prism:符号化超优化突破LLM推理瓶颈,性能提升1.7倍

    “人类直觉本质上不足以捕捉代数变换、数据布局和硬件特定调度决策之间的组合交互。” 这句话来自 Prism 论文,精准揭示了在过去十年中,ML 系统优化领域始终无法跨越的核心瓶颈。 从 TensorFlow 到 TVM,从 cuDNN 到 FlashAttention,我们一直依赖专家手工编写的规则和内核来推动 AI 模型性能的飞跃。然而,这种范式正逐渐触及天…

    大模型推理 9小时前
    2000
  • 告别AI作弊与偷懒:强化学习如何成为真正的GPU内核优化专家

    关键词:强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化 告别“作弊”与“偷懒”,让强化学习成为真正的 GPU 内核优化专家 训练一个能够编写高效 GPU 内核的 AI 程序员,是加速大模型训练的关键。然而,在实践中,AI 往往会陷入两种困境:一是“作弊”,即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励;二是“偷懒”,即只解决简单…

    2026年3月17日
    40000
  • SonicMoE:开源软硬件协同加速方案,64块H100媲美96块性能,实现45%内存节省与1.86倍吞吐量提升

    关键词:混合专家模型(MoE)、SonicMoE、GPU 内核优化、内存高效算法、令牌舍入路由、细粒度稀疏 MoE SonicMoE 已开源,方案基于 CuTe-DSL 实现并提供 PyTorch 接口,采用宽松许可证:github.com/Dao-AILab/sonic-moe。未来研究将围绕两方面展开:一是扩展到 FP8、MXFP8、MXFP4 等低精度…

    2025年12月23日
    57600