大模型推理

  • 突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%

    我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…

    9小时前
    800
  • 突破多GPU性能瓶颈:Triton与Iris融合通信计算,重塑分布式大模型推理新范式

    关键词:大型语言模型、多 GPU 分布式执行 、 细粒度融合 、三税分析框架 、Triton、 跨 GPU 通信 Eliminating Multi-gpu Performance Taxes: A Systems Approach to Efficient Distributed LLMs https://arxiv.org/pdf/2511.02168v…

    9小时前
    600
  • 告别流程图时代:Pokee AI如何用对话式界面颠覆传统Agent构建模式

    构建智能体(Agent)的过程往往令人头疼。 如果你曾花费数小时在 n8n 中拖拽连接节点,或是被某个棘手的 API 认证问题所困扰,你就能明白我的意思。这感觉就像一步步教机器人煮咖啡——流程繁琐,毫无乐趣。 正因如此,Pokee AI 的出现立刻引起了我的注意。它彻底颠覆了传统的构建模式。 在这里,你不再需要“创建”一个智能体,而是可以直接与它“对话”。 …

    2025年11月9日
    200
  • LLM推理优化全景图:从基础设施到模型算法的全栈工程实践

    本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

    2025年10月2日
    31912