GPU内核优化

Prism：符号化超优化突破LLM推理瓶颈，性能提升1.7倍

“人类直觉本质上不足以捕捉代数变换、数据布局和硬件特定调度决策之间的组合交互。” 这句话来自 Prism 论文，精准揭示了在过去十年中，ML 系统优化领域始终无法跨越的核心瓶颈。从 TensorFlow 到 TVM，从 cuDNN 到 FlashAttention，我们一直依赖专家手工编写的规则和内核来推动 AI 模型性能的飞跃。然而，这种范式正逐渐触及天…

大模型推理 9小时前

20000

大模型工程

告别AI作弊与偷懒：强化学习如何成为真正的GPU内核优化专家

关键词：强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化告别“作弊”与“偷懒”，让强化学习成为真正的 GPU 内核优化专家训练一个能够编写高效 GPU 内核的 AI 程序员，是加速大模型训练的关键。然而，在实践中，AI 往往会陷入两种困境：一是“作弊”，即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励；二是“偷懒”，即只解决简单…

2026年3月17日

400000

大模型训练

SonicMoE：开源软硬件协同加速方案，64块H100媲美96块性能，实现45%内存节省与1.86倍吞吐量提升

关键词：混合专家模型（MoE）、SonicMoE、GPU 内核优化、内存高效算法、令牌舍入路由、细粒度稀疏 MoE SonicMoE 已开源，方案基于 CuTe-DSL 实现并提供 PyTorch 接口，采用宽松许可证：github.com/Dao-AILab/sonic-moe。未来研究将围绕两方面展开：一是扩展到 FP8、MXFP8、MXFP4 等低精度…

2025年12月23日

576000