大模型推理
-
揭秘LLM推理两阶段瓶颈:从GPU微架构根源到跨场景高效部署策略
关键词:LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability A Systematic Characterization of LLM Inference on GPUs ht…
-
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍 现在,生成一个视频可能比你刷视频还要快。 一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。 以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9…
-
英伟达200亿美元豪购Groq:黄仁勋的AI推理野心与LPU芯片的颠覆性革命
这个圣诞节,英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易,涉及金额高达200亿美元(约合人民币1405亿元)。 根据Groq官方声明,交易的核心内容是英伟达获得了Groq推理技术的授权,同时,Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…
-
GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略
关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…
-
昇腾原生支持SGLang:大模型推理系统在金融Agent场景下的高效工程实践
当Agent应用加速,推理系统如何承接真实负载? 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州举办的SGLang AI 金融 π 对 活动中,被反复提及的核心背景。 在这场聚焦大模型推理效率的活动中,讨论焦点超越了Agent的概念热度,直指推理系统在真实负载下面临的工程挑战:高并发请求、长…
-
移动端大模型部署新突破:Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型
想在手机上流畅运行一个像样的语言模型?过去这通常意味着要忍受缓慢的速度或严重的精度损失。如今,Unsloth 发布了一份详尽的教程,指导开发者如何将其平台微调的模型直接部署到 Pixel 8 和 iPhone 15 Pro 上。 这项部署的核心是 Meta 为 Instagram 和 WhatsApp 等应用开发的 ExecuTorch 技术。该技术专为移动…
-
Unsloth革命:手机端大模型部署实战,40-50 token/s流畅体验揭秘
想在手机上流畅运行语言模型?过去常常面临速度缓慢或精度严重下降的困境。现在,借助Unsloth发布的完整教程,可以将其平台微调的模型直接部署到Pixel 8和iPhone 15 Pro等设备上。 其核心技术是Meta应用于Instagram和WhatsApp的ExecuTorch。该技术专为移动端优化,能够充分利用ARM处理器的NEON指令集,并调用手机NP…
-
性能远超 vLLM 和 SGLang!TileRT:编译器驱动下的 Tile-Based Runtime
关键词:TileRT、超低延迟、LLM推理、tile 级运行时 、多GPU、编译器驱动 TileRT: Tile-Based Runtime for Ultra-Low-Latency LLM Inference https://github.com/tile-ai/TileRT https://github.com/tile-ai/TileRT/relea…
-
突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%
我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…
-
ELANA:无需代码修改的LLM能效与延迟分析利器,精准评测每token能耗与三维延迟
ELANA: A Simple Energy and Latency Analyzer for LLMs https://arxiv.org/pdf/2512.09946 https://github.com/enyac-group/Elana 大型语言模型(LLM)在各类硬件平台部署时,延迟与能耗是核心约束 ,而 现有评测工具缺乏统一、轻量化的 LLM 专…
