大模型推理

开源项目

五大AI开源神器：从GLM-4.7编程突破到手机集群推理，重塑开发新范式

智谱开源 GLM-4.7 智谱 GLM-4.7 正式发布并官宣即将开源。在 LiveCodeBench 和 Code Arena 等多个权威榜单中，它取得了国产第一、开源第一的成绩。其综合编程能力已直逼甚至在某些维度超越了 Claude 4.5 Sonnet。近期，智谱已向港交所递交招股书，冲击全球大模型第一股。这表明国产大模型在编程这一核心赛道上，已具…

2025年12月24日

750000

大模型推理

昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

当Agent应用加速，推理系统如何承接真实负载？当Agent在应用侧不断加速，推理系统能否承受随之而来的真实负载，正在成为行业关注的焦点。这是12月20日在杭州举办的SGLang AI 金融 π 对活动中，被反复提及的核心背景。在这场聚焦大模型推理效率的活动中，讨论焦点超越了Agent的概念热度，直指推理系统在真实负载下面临的工程挑战：高并发请求、长…

2025年12月21日

520000

大模型推理

突破硬件壁垒：基于Triton的跨平台Attention内核实现5.9倍推理加速，性能达SOTA 105.9%

我们所研究的优化方法累计实现了高达 589%的性能提升，并已将相关内核与框架作为开源项目贡献（ ibm.biz/vllm-ibm-triton-lib ）。最终，我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。关键词：Triton、Attention Kernel 、Portability 、Large Language Mod…

2025年12月21日

853000

大模型推理

突破多GPU性能瓶颈：Triton与Iris融合通信计算，重塑分布式大模型推理新范式

关键词：大型语言模型、多 GPU 分布式执行、细粒度融合、三税分析框架、Triton、跨 GPU 通信 Eliminating Multi-gpu Performance Taxes: A Systems Approach to Efficient Distributed LLMs https://arxiv.org/pdf/2511.02168v…

2025年12月21日

392000

大模型评测

VitaBench评测揭示AI智能体真实应用瓶颈：跨场景成功率仅30%，三大维度量化任务复杂性

点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅；规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求，对当前的大模型智能体而言，却是一道难以逾越的门槛。美团 LongCat 团队近日发布的 VitaBench（Versatile Interactive Tasks Benchmark）评测基准，给出了一组值得深思的数据：…

2025年12月11日

367000

AI产品库

告别流程图时代：Pokee AI如何用对话式界面颠覆传统Agent构建模式

构建智能体（Agent）的过程往往令人头疼。如果你曾花费数小时在 n8n 中拖拽连接节点，或是被某个棘手的 API 认证问题所困扰，你就能明白我的意思。这感觉就像一步步教机器人煮咖啡——流程繁琐，毫无乐趣。正因如此，Pokee AI 的出现立刻引起了我的注意。它彻底颠覆了传统的构建模式。在这里，你不再需要“创建”一个智能体，而是可以直接与它“对话”。 …

2025年11月9日

399000

大模型推理

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践

本文基于真实的企业级AI平台研发与实践经验，首次以“系统分层、功能解耦”的架构思想，自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层（GPU集群、高速网络、存储加速）的硬件基石，到平台与调度层（Kubernetes、高级调度器、KServe）的资源管理中枢，再到服务与容器层的微观优化，以及AI网关层作为智能流量枢纽的核心能力。最终，深入探讨了推理引擎与算法层的核心优化技术，包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

2025年10月2日

1.1K123