大模型推理

揭秘LLM推理两阶段瓶颈：从GPU微架构根源到跨场景高效部署策略

关键词：LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability A Systematic Characterization of LLM Inference on GPUs ht…

2025年12月26日

643001

大模型推理

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍现在，生成一个视频可能比你刷视频还要快。一个开源新框架，能让视频生成在保证质量的情况下，最高提速200多倍，并且仅需单张显卡即可实现。以1.3B参数、480P分辨率的模型为例，在单张RTX 5090上生成一段5秒视频，原始方法需要约184秒。而采用新框架后，时间缩短至1.9…

2025年12月25日

372000

大模型推理

英伟达200亿美元豪购Groq：黄仁勋的AI推理野心与LPU芯片的颠覆性革命

这个圣诞节，英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易，涉及金额高达200亿美元（约合人民币1405亿元）。根据Groq官方声明，交易的核心内容是英伟达获得了Groq推理技术的授权，同时，Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…

2025年12月25日

535000

大模型推理

GPU上LLM推理性能瓶颈深度解析：从两阶段特性到MoE/RAG优化策略

关键词：LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进：识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。我们的研究结果为理解 LLM 推理建立…

2025年12月24日

415000

大模型推理

昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

当Agent应用加速，推理系统如何承接真实负载？当Agent在应用侧不断加速，推理系统能否承受随之而来的真实负载，正在成为行业关注的焦点。这是12月20日在杭州举办的SGLang AI 金融 π 对活动中，被反复提及的核心背景。在这场聚焦大模型推理效率的活动中，讨论焦点超越了Agent的概念热度，直指推理系统在真实负载下面临的工程挑战：高并发请求、长…

2025年12月21日

527000

大模型推理

移动端大模型部署新突破：Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型

想在手机上流畅运行一个像样的语言模型？过去这通常意味着要忍受缓慢的速度或严重的精度损失。如今，Unsloth 发布了一份详尽的教程，指导开发者如何将其平台微调的模型直接部署到 Pixel 8 和 iPhone 15 Pro 上。这项部署的核心是 Meta 为 Instagram 和 WhatsApp 等应用开发的 ExecuTorch 技术。该技术专为移动…

2025年12月21日

520000

大模型推理

Unsloth革命：手机端大模型部署实战，40-50 token/s流畅体验揭秘

想在手机上流畅运行语言模型？过去常常面临速度缓慢或精度严重下降的困境。现在，借助Unsloth发布的完整教程，可以将其平台微调的模型直接部署到Pixel 8和iPhone 15 Pro等设备上。其核心技术是Meta应用于Instagram和WhatsApp的ExecuTorch。该技术专为移动端优化，能够充分利用ARM处理器的NEON指令集，并调用手机NP…

2025年12月21日

781000

大模型推理

性能远超 vLLM 和 SGLang！TileRT：编译器驱动下的 Tile-Based Runtime

关键词：TileRT、超低延迟、LLM推理、tile 级运行时、多GPU、编译器驱动 TileRT: Tile-Based Runtime for Ultra-Low-Latency LLM Inference https://github.com/tile-ai/TileRT https://github.com/tile-ai/TileRT/relea…

2025年12月21日

860000

大模型推理

突破硬件壁垒：基于Triton的跨平台Attention内核实现5.9倍推理加速，性能达SOTA 105.9%

我们所研究的优化方法累计实现了高达 589%的性能提升，并已将相关内核与框架作为开源项目贡献（ ibm.biz/vllm-ibm-triton-lib ）。最终，我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。关键词：Triton、Attention Kernel 、Portability 、Large Language Mod…

2025年12月21日

862000

大模型推理

ELANA：无需代码修改的LLM能效与延迟分析利器，精准评测每token能耗与三维延迟

ELANA: A Simple Energy and Latency Analyzer for LLMs https://arxiv.org/pdf/2512.09946 https://github.com/enyac-group/Elana 大型语言模型（LLM）在各类硬件平台部署时，延迟与能耗是核心约束，而现有评测工具缺乏统一、轻量化的 LLM 专…

2025年12月21日

423000

分类

排序

大模型推理

揭秘LLM推理两阶段瓶颈：从GPU微架构根源到跨场景高效部署策略

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

英伟达200亿美元豪购Groq：黄仁勋的AI推理野心与LPU芯片的颠覆性革命

GPU上LLM推理性能瓶颈深度解析：从两阶段特性到MoE/RAG优化策略

昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

移动端大模型部署新突破：Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型

Unsloth革命：手机端大模型部署实战，40-50 token/s流畅体验揭秘

性能远超 vLLM 和 SGLang！TileRT：编译器驱动下的 Tile-Based Runtime

突破硬件壁垒：基于Triton的跨平台Attention内核实现5.9倍推理加速，性能达SOTA 105.9%

ELANA：无需代码修改的LLM能效与延迟分析利器，精准评测每token能耗与三维延迟