大模型推理_鲸林向海

突破硬件壁垒：基于Triton的跨平台Attention内核实现5.9倍推理加速，性能达SOTA 105.9%

我们所研究的优化方法累计实现了高达 589%的性能提升，并已将相关内核与框架作为开源项目贡献（ ibm.biz/vllm-ibm-triton-lib ）。最终，我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。关键词：Triton、Attention Kernel 、Portability 、Large Language Mod…

9小时前

8000

大模型推理

突破多GPU性能瓶颈：Triton与Iris融合通信计算，重塑分布式大模型推理新范式

关键词：大型语言模型、多 GPU 分布式执行、细粒度融合、三税分析框架、Triton、跨 GPU 通信 Eliminating Multi-gpu Performance Taxes: A Systems Approach to Efficient Distributed LLMs https://arxiv.org/pdf/2511.02168v…

9小时前

6000

AI产品库

告别流程图时代：Pokee AI如何用对话式界面颠覆传统Agent构建模式

构建智能体（Agent）的过程往往令人头疼。如果你曾花费数小时在 n8n 中拖拽连接节点，或是被某个棘手的 API 认证问题所困扰，你就能明白我的意思。这感觉就像一步步教机器人煮咖啡——流程繁琐，毫无乐趣。正因如此，Pokee AI 的出现立刻引起了我的注意。它彻底颠覆了传统的构建模式。在这里，你不再需要“创建”一个智能体，而是可以直接与它“对话”。 …

2025年11月9日

2000

大模型推理

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践

本文基于真实的企业级AI平台研发与实践经验，首次以“系统分层、功能解耦”的架构思想，自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层（GPU集群、高速网络、存储加速）的硬件基石，到平台与调度层（Kubernetes、高级调度器、KServe）的资源管理中枢，再到服务与容器层的微观优化，以及AI网关层作为智能流量枢纽的核心能力。最终，深入探讨了推理引擎与算法层的核心优化技术，包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

2025年10月2日

319123