GPU优化
-
决战性能之巅!MLSys 2026 CUDA 内核优化大赛开启,用代码挑战 B200 GPU 极限
关键词: FlashInfer、MLSys26、高性能推理、AI 计算、深度学习 一行行精简的 CUDA 代码,将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。 2026 年 1 月 22 日,一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开…
-
突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率
Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。 近日…
-
GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略
关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…
-
突破多GPU性能瓶颈:Triton与Iris融合通信计算,重塑分布式大模型推理新范式
关键词:大型语言模型、多 GPU 分布式执行 、 细粒度融合 、三税分析框架 、Triton、 跨 GPU 通信 Eliminating Multi-gpu Performance Taxes: A Systems Approach to Efficient Distributed LLMs https://arxiv.org/pdf/2511.02168v…