大模型推理
-
置顶 LLM推理优化全景图:从基础设施到模型算法的全栈工程实践
本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。
-
决战性能之巅!MLSys 2026 CUDA 内核优化大赛开启,用代码挑战 B200 GPU 极限
关键词: FlashInfer、MLSys26、高性能推理、AI 计算、深度学习 一行行精简的 CUDA 代码,将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。 2026 年 1 月 22 日,一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开…
-
思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式
在 LLM 时代,思维链(CoT)已成为解锁模型复杂推理能力的关键技术。然而,CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤,带来了巨大的计算开销和显存占用,严重制约了推理效率。 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体文本。这种方法虽然速度快,却是一个「黑…
-
让AI自我辩驳:Google角色反转提示技巧,准确率提升40%
如何迫使 AI 自我辩驳,揪出错误推理,产出更锐利、更可靠的答案 绝大多数用户现在及未来都将通过网页与 AI 交互。他们唯一的工具是浏览器,结果完全取决于他们能写出的提示词。因此,多数人在使用先进 AI 工具时感到隐隐的失望,也就不足为奇。 你提出一个严肃的问题。AI 的回应自信、清晰、结构完备,乍看之下相当出色。但几分钟后,你开始觉得哪里不对劲——或许是漏…
-
驯服GPU集群中的“吵闹邻居”:MIT等高校提出轻量级控制器,实现可预测LLM服务,TTFT p99降低10-15%
关键词:GPU 多租户、LLM 服务、SLO 合规、PCIe 感知放置、动态 MIG、TTFT 在如今大模型(LLM)服务无处不在的时代,无论是智能助手、代码生成还是实时翻译,用户都期望获得快速、稳定的响应。然而,在共享的 GPU 集群上部署这些服务时,一个普遍而棘手的问题悄然浮现——“吵闹的邻居”效应。 想象一下,你正在参加一场重要的视频会议,而隔壁却在装…
-
MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍
MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍 让大模型轻松处理比自身上下文窗口长两个数量级的超长文本! MIT CSAIL研究团队提出了一种名为递归语言模型(RLM) 的长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文…
-
上交、清华提出面向 LLM 推理的多核 NPU 创新策略:全栈多维度优化实现1.32x-6.03x超 SOTA 加速
关键词:多核NPU、LLM推理、NpuSim模拟器、张量并行、内存管理、PD分拆与融合 随着 ChatGPT、Qwen、DeepSeek 等大型语言模型(LLM)的广泛应用,AI 应用正在经历一场前所未有的变革。从智能助手、代码生成到自动驾驶,LLM 正在成为数字时代的“新电力”。然而,这场变革的背后隐藏着一个严峻的挑战:如何高效地运行这些庞然大物? 传统的…
-
SGLang流水线并行:突破百万Token上下文推理瓶颈,实现3.31倍吞吐量提升
关键词:SGLang、流水线并行、超长上下文推理、动态分块、分布式推理 本文聚焦大语言模型(LLM)向万亿参数与超长上下文演进时的推理基础设施瓶颈,提出 SGLang 优化版流水线并行(PP)方案。 Pipeline Parallelism in SGLang: Scaling to Million-Token Contexts and Beyond htt…
-
T-MAN:NPU大模型推理的革命性方案,解码速度提升3.1倍,能效比领先84%
关键词:T-MAN、查找表 、 低比特量化 、NPU 推理 、端到端优化 当大模型遇上手机 NPU,推理速度反而比 CPU 还慢?USTC、微软研究院、清华等研究团队提出统一查找表方案 ,同时解决速度、能耗与精度三大难题。 近年来,大语言模型(LLM)正逐步“入住”我们的手机、电脑等消费设备。无论是苹果的 Apple Intelligence、谷歌的 Gem…
-
美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 256K文本预加载提速超50%,并解锁了1M上下文窗口。 美团LongCat系列发布全新稀疏注意力机制LoZA。 该技术旨在集中解决长文本任务中的理解与算力难题。 相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解…