异构执行

大模型推理

速度革命：TileRT如何让大模型推理延迟骤降，开启Scaling Law新纪元

本文深度剖析了TileRT这一高性能推理引擎，并指出在大模型推理领域，速度正成为全新的Scaling Law。文章梳理了AI推理发展的三个阶段，揭示了行业需求正从模型质量、Token吞吐量，逐步转向对低延迟响应的极致追求。当前主流推理框架均以吞吐量为核心设计目标，导致大量算力在算子切换、跨卡同步、内存往返等执行边界上被白白消耗，硬件性能难以有效转化为实际响…

7小时前
53000