TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代

关键词: TileRT、大语言模型、推理引擎低延迟编译器

副标题: 600 tokens/s!TileRT 让千亿参数模型推理进入毫秒时代

TileRT v0.1.3 是一次里程碑式的发布,标志着 TileRT 从仅支持 DeepSeek-V3.2 单一模型扩展为多模型架构支持。本版本新增了对最新 GLM-5 模型的完整推理支持,并在 8× NVIDIA B200 GPU 上实现了令人瞩目的性能:GLM-5-FP8 高达 500 tokens/sDeepSeek-V3.2 高达 600 tokens/s

TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代 GLM-5 User Token Generation Race 对比图,展示了在单节点解码场景下,从 1K 到 200K 上下文长度时,三种推理框架(TileRT、SGLang、vLLM)在 10 分 30 秒内生成用户 Token 的总量。图表以时间为横轴,以生成的总用户 Token 数为纵轴,三条曲线分别代表三种框架的表现:TileRT 的曲线增长最快,在 10 分 30 秒时生成了 195,598 个 Token,显著领先;SGLang 生成了 62,828 个 Token,vLLM 生成了 48,908 个 Token。下方的统计信息显示,TileRT 的实时用户 TPS(每秒生成 Token 数)分别是 SGLang 的 5.3 倍、vLLM 的 4.6 倍,SGLang 和 vLLM 相比 TileRT 在相同的时间少生成 3.1 倍和 4.0 倍的 Token。图表底部的注释说明,TileRT 和 SGLang 使用了 MTP=3 的设置,而 vLLM 因在 MTP=3 时失败,使用了 MTP=1 的设置,这也在一定程度上影响了其性能表现。整体来看,TileRT 在该测试场景下展现出了压倒性的 Token 生成效率优势。 TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代

  • TileRT:Ultra-Low-Latency LLM Inference
  • A revolutionary tile-level runtime engine that unlocks inference speed for state-of-the-art AI models.
  • 在线 Demo: tilert.ai
  • GitHub: https://github.com/tile-ai/tilert

在当今大语言模型(LLM)应用中,延迟往往是决定用户体验的关键——高频交易、交互式 AI、智能代理、实时决策、AI 辅助编程……这些场景都对单个请求的响应速度提出了严苛要求

然而, 传统的推理系统大多为高吞吐批量处理优化,难以兼顾模型规模与响应速度。

TileRT 正是为此而生——一个专注于超低延迟的 LLM 推理运行时。它采用创新的tile 级任务分解编译器驱动技术, 将算子拆解为细粒度 tile 任务,并通过动态调度最大化计算、I/O 和通信的重叠

不牺牲模型质量(无需量化或蒸馏)的前提下,将数百亿参数模型的单 token 输出时间(TPOT)压至毫秒级。

今天,终于可以激动地宣布 TileRT v0.1.3 正式发布!这是 TileRT 发展历程中的里程碑版本,不仅首次实现对 GLM-5 模型的完整支持,更在性能上再创新高——DeepSeek-V3.2 达到 600+ tokens/s,GLM-5-FP8 达到 500+ tokens/s(8× NVIDIA B200,batch size=1)。

同时,在线 Demo 平台 tilert.ai 现已上线,欢迎所有开发者立即体验超低延迟推理的魅力!

需要补充说明的是,TileRT、TileLang、TileScale 这三个项目在 Tile-AI 生态系统中是紧密相连、分工明确的三层技术体系。简单来说,它们是 “编程语言(TileLang)— 编译/分布式框架(TileScale)— 运行时引擎(TileRT)” 的关系,共同服务于超低延迟的大模型推理这一核心目标。

| 项目 & 核心定位 | 主要职能 | 关键特点 |
| :— | :— | :— |
| TileLang – 编程语言/编译器前端 | 提供高层抽象,让开发者用接近数学公式的方式描述计算(如矩阵乘法、注意力机制),然后由编译器自动生成高性能的底层代码。 | 解放开发者:无需手写复杂的CUDA代码,开发效率倍增(代码量可减少约90%)。
硬件无关:一次编写,可部署到不同硬件架构(如英伟达GPU、国产摩尔线程GPU)。 |
| TileScale – 分布式编程与运行时框架 | 专注于跨设备(如多GPU)的任务调度和通信。当单个设备放不下巨大模型时,负责将模型切分并高效地协同多卡进行计算。 | 横向扩展:让TileLang编写的程序能无缝扩展到大规模集群。中提到的“跨多个设备的动态调度”技术,其成果将整合进TileScale。 |
| TileRT – 专注于推理的运行时引擎 | 接收来自TileLang的高效算子,并利用TileScale的分布式能力,在运行时动态地、超低延迟地执行推理任务。 | 极致延迟:专为单请求、低延迟场景(如实时对话)设计,而非高吞吐量批处理。
Tile级调度:将算子拆解为更细粒度的“tile”任务,极度重叠计算、I/O和通信,压榨硬件性能。 |

总得来说:
* TileLang 负责 “怎么写得爽”——让开发者高效地创造高性能算子。
* TileScale 负责 “怎么铺得开”——让计算能高效地扩展到多卡环境。
* TileRT 负责 “怎么跑得快”——在实际推理中,将所有技术潜力兑现为极致的响应速度。

一、性能飞跃:刷新 LLM 推理速度纪录

在最新的评测中,使用 8× NVIDIA B200 GPU,以 batch size=1、输入长度覆盖 1K~192K 的真实场景,对比了主流推理系统(SGLang、vLLM)的性能。

TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代 GLM-5-FP8 Decoding with MTP 评估设置。批处理大小:1;横轴为输入序列长度:1K、16K、32K、64K、128K、150K、192K;纵轴为每秒生成的用户令牌数(UTPS):1K;使用合成数据进行基准测试。SGLang v0.5.9.dev0,MTP=3;vLLM v0.16.0rc2.dev173,MTP=1(当MTP=3时vLLM失败,因此我们将MTP=1设置为vLLM-GPT5-recipe);TileRT v0.1.3,MTP=3。在启用 MTP(多令牌预测)的情况下,GLM-5 模型在 FP8 精度下的解码速度表现。三种推理框架中,TileRT(橙色)在所有长度下均显著领先,SGLang(绿色)和 vLLM(蓝色)则明显落后。随着输入长度增加,各框架性能均有所下降,但 TileRT 始终保持绝对优势,体现了其在长上下文场景下的高效解码能力。 TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代 GLM-5-FP8 Decoding Speed without MTP 评估设置。批处理大小:1;横轴为输入序列长度:1K、16K、32K、64K、128K、150K、192K;纵轴为每秒生成的用户令牌数(UTPS):1K;使用合成数据进行基准测试。SGLang v0.5.9.dev0;vLLM v0.16.0rc2.dev173;TileRT v0.1.3。三种推理框架中,TileRT(橙色)在所有长度下均显著领先,SGLang(绿色)和 vLLM(蓝色)则明显落后。随着输入长度增加,各框架性能均有所下降,但 TileRT 始终保持绝对优势,体现了其在长上下文场景下的高效解码能力。

结果显示,TileRT v0.1.3 在 DeepSeek-V3.2 和 GLM-5-FP8 上均取得显著优势

| 模型 / 框架 | 配置 | 性能(tokens/s) |
| :— | :— | :— |
| DeepSeek-V3.2 | MTP=3 | ~600 |
| GLM-5-FP8 | MTP=3 | ~500 |
| 对比:SGLang v0.5.9 | MTP=3 | 显著低于 TileRT |
| 对比:vLLM v0.16.0 | MTP=1(MTP=3 无法运行) | 显著低于 TileRT |

这一成绩意味着:即使是千亿参数级的模型,TileRT 也能在单用户请求下实现实时流畅的生成 ,为交互式 AI 应用打开了全新可能。

二、核心功能更新:不止于快

2.1 全面支持 GLM-5 模型 🔥

TileRT 成为首批支持最新 GLM-5 模型推理的系统之一。针对 GLM-5 的独特架构(dim=6144,n_heads=64,MLA 注意力,MoE 等)深度优化:

  • 完整实现关键算子:完整支持 MLA(Multi-head Latent Attention)、MoE(Mixture of Experts)、MTP(Multi-Token Prediction)等核心机制。
  • 专用 CUDA 内核:开发了 down_allreduce_glm5_opexpert_down_allreduce_glm5_oprmsnorm_head_proj_glm5_op 等 GLM-5 专用算子。
  • 精度优化:部分算子新增 FP16 MMA 算法路径,以满足 GLM-5 的精度需求。

无论是研究 GLM-5 的应用,还是探索下一代模型架构,TileRT 都能提供最极速的推理体验。

2.2 内建 Weight Converter:告别繁琐的权重转换 🚀

过去,使用 TileRT 需要下载预转换的权重,流程繁琐。v0.1.3 引入 内建权重转换器 ,可以直接从官方源(如 Hugging Face)下载原始权重,然后通过一行命令完成转换:

“`bash

转换 DeepSeek-V3.2 权重

python -m tilert.models.preprocess.weight_converter
–model_type deepseek-v32
–model_dir “/path/to/DeepSeek-V3.2”
–save_dir “/path/to/DeepSeek-V3.2-TileRT”

转换 GLM-5-FP8 权重

python -m tilert.models.preprocess.weight_converter
–model_type glm-5
–model_dir “/path/to/GLM-5-FP8”
–save_dir “/path/to/GLM-5-FP8-TileRT”
“`

转换后,只需设置环境变量 MODEL_WEIGHTS_DIR 指向保存目录,即可快速加载模型。这一改进大幅简化了部署流程 ,消除了对第三方预转换权重的依赖。

2.3 Top-P 采样与动态参数调整 🎛️

新版本增加了完整的 Top-P (Nucleus) 采样 支持,并允许在运行时动态调整采样参数:

  • temperature:采样温度
  • top_p:Nucleus 采样阈值
  • top_k:Top-K 候选数
  • sampling_seed:采样种子(支持每请求固定)

通过 update_sampling_params() API,可以随时切换采样策略,系统会自动重新捕获 CUDA Graph 以应用新参数,无需重新初始化模型。

2.4 全新 Benchmark 框架 📊

为了帮助开发者更科学地评估性能,新增了模块化 Benchmark 套件 ,支持短提示、编程任务、长文本等多种场景,并可一键测试贪婪解码、带 MTP、带 Top-P 采样等模式,最终输出清晰的 Markdown 汇总表。无论是调优还是对比,都能事半功倍。

三、架构重构:为多模型扩展奠定基础

v0.1.3 对 Python 层进行了大规模架构重构 ,从单文件整体式进化为高度模块化设计:

四、在线体验:tilert.ai 正式上线

再多的数据都不如一次亲身体验。TileRT 在线 Demo 平台 tilert.ai 现已开放!

用户可直接在浏览器中与 GLM-5DeepSeek-V3.2 模型对话,体验 实时生成 的流畅效果。无论是测试长文本生成、多轮对话,还是验证 600 tokens/s 的推理速度,均可访问 tilert.ai 进行尝试。

TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代 DeepSeek-V3.2 的对话界面,左侧显示了账号验证方法,右侧实时 TPS 峰值达 619.91,平均为 397.48。用户提问 “洗车店距家 50 米,该开车还是步行” TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代

DeepSeek-V3.2的对话界面,在回答“是否知道 TileRT 这个开源项目”的问题时。右侧显示实时TPS为0,峰值TPS达614.03,平均TPS为395.95。

TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代 如果使用人多,会出现当前排队位次,上图为 1,并提示 “当前排队人数较多”,系统正在为用户分配独占 GPU 推理节点

五、快速上手:五分钟运行 TileRT

根据 README 文档,下面整理了最简安装与使用流程。

5.1 环境要求

  • 硬件:8× NVIDIA B200 GPUs(当前预览版支持此配置)
  • 系统:Linux x86_64 (Ubuntu 20.04+)
  • Python:3.11~3.12
  • CUDA:12.9(与 PyTorch CUDA 12.8/12.9 wheel 匹配)

5.2 安装步骤(推荐 Docker)

“`bash

1. 拉取官方Docker镜像

docker pull tileai/tilert:v0.1.0

2. 启动容器(挂载工作目录)

export WORKSPACE_PATH=”/path/to/your/workspace”
docker run –gpus all -it
-v $WORKSPACE_PATH:/workspace/
tileai/tilert:v0.1.0

3. 在容器内安装TileRT

pip install tilert
“`

5.3 权重转换与模型加载

按照上文所述,使用 weight_converter.py 转换官方权重,并设置环境变量:

bash
export MODEL_WEIGHTS_DIR="/path/to/converted_weights"

5.4 运行生成示例(Python 脚本)

“`python
from tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator

generator = ShowHandsGenerator(
max_new_tokens=1000,
model_weights_dir=MODEL_WEIGHTS_DIR,
with_mtp=False # 或设为True启用多token预测
)
generator.from_pretrained()

prompt = “Tell me three jokes:n1. A dad joke,n2. A programmer joke,n3. A joke about LLM training.”
print(“Completion:”, generator.generate(prompt))
“`

启用 MTP(Multi-Token Prediction)时,可以看到类似 Accepted length: mean=2.77 min=1 max=4 的统计信息,表明每步解码平均接受多个 token,从而大幅提升生成速度。

详细示例及 MTP 用法,请参阅 GitHub 仓库中的文档。

六、展望未来

v0.1.3 奠定了 TileRT 多模型支持的基础,但 TileRT 团队不会止步。接下来将:

  • 支持更多主流模型(如 GPT 系列、Claude 等)
  • 优化更长序列(>192K)的推理性能
  • 推出 Prefill-Decode 解耦部署方案
  • 持续压低延迟,挑战极限

TileRT 是开源的,欢迎社区贡献。无论是框架开发者、模型研究者,还是对低延迟推理充满好奇的工程师,欢迎在 GitHub issue 上提问。

结语

从 DeepSeek-V3.2 的 600 tokens/s,到 GLM-5 的全面支持,再到在线 Demo 的上线,TileRT 正一步步兑现其“让最强模型跑得最快”的承诺。如果你正在构建对延迟敏感的 AI 应用,TileRT 将是你的不二之选。

现在就访问 tilert.ai 体验极速生成,或者按照本文指南本地部署,开启你的超低延迟推理之旅!

参考资料

[1] 在线 Demo: https://www.tilert.ai

[2] GitHub 仓库: https://github.com/tile-ai/tilert


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21459

(0)
上一篇 11小时前
下一篇 2025年11月27日 上午9:00

相关推荐