关键词: FlashInfer、MLSys26、高性能推理、AI 计算、深度学习
一行行精简的 CUDA 代码,将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。
2026 年 1 月 22 日,一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开帷幕。这场竞赛将聚焦现代大语言模型中最关键的操作优化,参赛者将有机会在 NVIDIA 最新的 Blackwell B200 GPU 平台上展示自己的编码才华。

本次竞赛的核心挑战是创建优化的 CUDA 内核,目标直指现代大语言模型中最关键的操作。
参赛者可以选择手动编写,也可以借助 AI 智能体生成代码,但无论采用哪种方式,最终都需要在FlashInfer-Bench 平台 上进行提交和评估。
一、赛题核心
竞赛围绕现代大语言模型中最关键的操作展开,参赛者需要面对的是从生产模型中提取的真实工作负载。评估标准严苛而全面:代码正确性、执行速度以及与 FlashInfer 基线的胜率对比。
组织方设计了独特的双轨参赛模式 ,既欢迎专家精心编写种子内核并通过智能体辅助进化,也鼓励完全由 AI 智能体生成的解决方案。两种方法将被分开评估,为不同技术背景的开发者提供公平竞技舞台。
对于选择 AI 智能体方案的团队,竞赛规则明确要求必须开源用于复现内核的脚本,确保技术透明性和可复现性。
二、赛道设置
竞赛设置了三个核心赛道,分别针对现代大语言模型中最关键的操作进行优化。

其中最引人注目的是 “Fused MoE 赛道” ,要求开发者创建支持 FP8 精度的融合混合专家内核 。
这一赛题直接对应了当前大语言模型中最前沿的技术挑战,对参赛者的理解深度和实现能力提出了极高要求。其他两个赛题同样围绕 LLM 核心操作展开,共同构成了完整的技术挑战矩阵。
三、时间规划
竞赛时间线安排紧凑而有序。2026 年 1 月 22 日公开启动,2 月 9 日将发布基于 OpenEvolve 的基线模型,2 月 15 日截止注册。
关键的内核提交截止日期是 2026 年 4 月 24 日 ,技术报告则需要在 5 月 1 日前完成。获胜者将在 5 月 11 日收到通知,并有机会在 5 月 17 日至 22 日于华盛顿州贝尔维尤举行的 MLSys 2026 颁奖典礼上展示自己的解决方案。

四、参与方式
参赛流程简洁明了:开发者首先需要按照官方提供的入门套件设置开发环境,使用任何语言编写内核代码,包括 CuTe DSL、CUDA、Tilelang、Triton、cuTile 等。

代码完成后,需要按照入门套件格式托管在 GitHub 仓库中,然后将仓库 URL 分享给组织者。评估将每两周进行一次 ,加上最终评估,参赛者只需在 GitHub 上标记提交即可参与。
官方特别提醒,模态分数仅供参考,因为时钟频率无法锁定,官方评估将在物理机器上运行。

五、资源支持
为鼓励更多开发者参与,竞赛主办方提供了丰富的资源支持。注册团队将获得 Modal 计算积分,用于 NVIDIA B200 GPU 开发。
获奖团队将有机会获得GPU 卡奖品 ,具体细节即将公布。同时,优胜者还将获得免费的 MLSys 2026 会议注册资格,与世界顶尖的机器学习系统研究者交流。

这场竞赛不仅是技术能力的试金石,更是开发者展示才华的绝佳平台。随着大语言模型技术的快速发展,高效内核的重要性日益凸显。
随着竞赛进程的推进,Biweekly 评估机制 将不断刷新排行榜,让参赛者及时了解自己的优化效果。无论是资深的 CUDA 编程专家,还是擅长使用 AI 智能体生成代码的新锐开发者,都能在这片竞技场上找到自己的位置。
目前,FlashInfer 生产内核 和基于 OpenEvolve 的参考基准即将发布,为参赛者提供明确的技术目标。对于希望在 AI 系统优化领域建立声誉的开发者来说,这场竞赛无疑是一个不可错过的机遇。
当 2026 年 5 月 MLSys 大会的聚光灯亮起,那些能够在 Blackwell B200 GPU 上将代码性能推向极致的开发者们,将站上属于他们的领奖台。
- 从Kernel生成到SGLang/vLLM部署!FlashInfer-Bench:重塑 AI 生成内核的高效落地路径
- HotChips 2025 从摩尔定律到巨型内核:GPU 上机器学习系统优化的十年跃迁,Zhihao Jia 演讲解读
- FlashInfer:面向 LLM 服务的可定制且高效的 GPU 注意力引擎
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18702
