大模型推理
-
GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略
关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…
-
昇腾原生支持SGLang:大模型推理系统在金融Agent场景下的高效工程实践
当Agent应用加速,推理系统如何承接真实负载? 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州举办的SGLang AI 金融 π 对 活动中,被反复提及的核心背景。 在这场聚焦大模型推理效率的活动中,讨论焦点超越了Agent的概念热度,直指推理系统在真实负载下面临的工程挑战:高并发请求、长…
-
移动端大模型部署新突破:Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型
想在手机上流畅运行一个像样的语言模型?过去这通常意味着要忍受缓慢的速度或严重的精度损失。如今,Unsloth 发布了一份详尽的教程,指导开发者如何将其平台微调的模型直接部署到 Pixel 8 和 iPhone 15 Pro 上。 这项部署的核心是 Meta 为 Instagram 和 WhatsApp 等应用开发的 ExecuTorch 技术。该技术专为移动…
-
Unsloth革命:手机端大模型部署实战,40-50 token/s流畅体验揭秘
想在手机上流畅运行语言模型?过去常常面临速度缓慢或精度严重下降的困境。现在,借助Unsloth发布的完整教程,可以将其平台微调的模型直接部署到Pixel 8和iPhone 15 Pro等设备上。 其核心技术是Meta应用于Instagram和WhatsApp的ExecuTorch。该技术专为移动端优化,能够充分利用ARM处理器的NEON指令集,并调用手机NP…
-
性能远超 vLLM 和 SGLang!TileRT:编译器驱动下的 Tile-Based Runtime
关键词:TileRT、超低延迟、LLM推理、tile 级运行时 、多GPU、编译器驱动 TileRT: Tile-Based Runtime for Ultra-Low-Latency LLM Inference https://github.com/tile-ai/TileRT https://github.com/tile-ai/TileRT/relea…
-
突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%
我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…
-
ELANA:无需代码修改的LLM能效与延迟分析利器,精准评测每token能耗与三维延迟
ELANA: A Simple Energy and Latency Analyzer for LLMs https://arxiv.org/pdf/2512.09946 https://github.com/enyac-group/Elana 大型语言模型(LLM)在各类硬件平台部署时,延迟与能耗是核心约束 ,而 现有评测工具缺乏统一、轻量化的 LLM 专…
-
突破多GPU性能瓶颈:Triton与Iris融合通信计算,重塑分布式大模型推理新范式
关键词:大型语言模型、多 GPU 分布式执行 、 细粒度融合 、三税分析框架 、Triton、 跨 GPU 通信 Eliminating Multi-gpu Performance Taxes: A Systems Approach to Efficient Distributed LLMs https://arxiv.org/pdf/2511.02168v…
-
揭秘浮点累加顺序黑盒:FPRev工具如何解决异构计算中的数值可复现性难题
关键词:FPRev、浮点累加顺序、数值可复现性、异构计算、浮点运算、累加顺序推断 Revealing Floating-Point Accumulation Orders in Software/Hardware Implementations https://www.usenix.org/conference/atc25/presentation/xie …
-
Nexa SDK:实现手机、PC、边缘设备算力大一统的端侧AI终极形态
关键词:端侧 AI、Nexa SDK、异构计算 、NexaQuant、模型压缩 、跨平台部署 NexaAI: Ship any AI model to Any Device in Minutes. Production-ready on-device inference across backends. 代码: https://github.com/Nexa…