LLM推理
-
揭秘OpenAI Codex智能体循环:AI如何通过工具调用实现高效软件开发
刚刚,OpenAI CEO 山姆・奥特曼在社交平台发布推文称:「从下周开始的接下来一个月,我们将会发布很多与 Codex 相关的激动人心的东西。」他尤其强调了网络安全这一主题。 如同奥特曼的许多推文一样,这条预告也引发了网友的广泛讨论: 似乎是响应奥特曼的预告,OpenAI 官方随后发布了一篇技术博客,标题为「揭秘 Codex 智能体循环」,深入剖析了 Co…
-
驯服GPU集群中的“吵闹邻居”:MIT等高校提出轻量级控制器,实现可预测LLM服务,TTFT p99降低10-15%
关键词:GPU 多租户、LLM 服务、SLO 合规、PCIe 感知放置、动态 MIG、TTFT 在如今大模型(LLM)服务无处不在的时代,无论是智能助手、代码生成还是实时翻译,用户都期望获得快速、稳定的响应。然而,在共享的 GPU 集群上部署这些服务时,一个普遍而棘手的问题悄然浮现——“吵闹的邻居”效应。 想象一下,你正在参加一场重要的视频会议,而隔壁却在装…
-
上交、清华提出面向 LLM 推理的多核 NPU 创新策略:全栈多维度优化实现1.32x-6.03x超 SOTA 加速
关键词:多核NPU、LLM推理、NpuSim模拟器、张量并行、内存管理、PD分拆与融合 随着 ChatGPT、Qwen、DeepSeek 等大型语言模型(LLM)的广泛应用,AI 应用正在经历一场前所未有的变革。从智能助手、代码生成到自动驾驶,LLM 正在成为数字时代的“新电力”。然而,这场变革的背后隐藏着一个严峻的挑战:如何高效地运行这些庞然大物? 传统的…
-
Mirage Persistent Kernel:突破LLM推理极限,自动巨核化技术实现1.7倍性能飞跃
关键词:#MPK、#LLM推理、#MegaKernel、#SM级任务图、#多GPU优化、#跨算子优化 MPK 作为首个自动 Mega Kernel 化多 GPU LLM 推理的编译器-运行时系统 ,以 SM 级 tGraph 打破核间壁垒,让跨算子 软件流水线与细粒度计算-通信重叠从理论走向实用;无需修改模型代码,仅需数行 PyTorch 集成,它即可在 A…
-
揭秘LLM推理两阶段瓶颈:从GPU微架构根源到跨场景高效部署策略
关键词:LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability A Systematic Characterization of LLM Inference on GPUs ht…
-
GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略
关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…
-
性能远超 vLLM 和 SGLang!TileRT:编译器驱动下的 Tile-Based Runtime
关键词:TileRT、超低延迟、LLM推理、tile 级运行时 、多GPU、编译器驱动 TileRT: Tile-Based Runtime for Ultra-Low-Latency LLM Inference https://github.com/tile-ai/TileRT https://github.com/tile-ai/TileRT/relea…
-
SGLang发布迷你版:5千行代码实现LLM推理核心,性能媲美完整版
SGLang团队近日发布了mini-SGLang,将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术,包括重叠调度、FlashAttention-3、基数缓存等,在在线服务场景下的性能表现与完整版几乎无异。 为何推出迷你版 许多开发者希望深入理解现代大语言模型推理的内部机制,但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…