关键词： TileRT、大语言模型、推理引擎、低延迟、编译器

副标题： 600 tokens/s！TileRT 让千亿参数模型推理进入毫秒时代

TileRT v0.1.3 是一次里程碑式的发布，标志着 TileRT 从仅支持 DeepSeek-V3.2 单一模型扩展为多模型架构支持。本版本新增了对最新 GLM-5 模型的完整推理支持，并在 8× NVIDIA B200 GPU 上实现了令人瞩目的性能：GLM-5-FP8 高达 500 tokens/s，DeepSeek-V3.2 高达 600 tokens/s。

TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代 GLM-5 User Token Generation Race 对比图，展示了在单节点解码场景下，从 1K 到 200K 上下文长度时，三种推理框架（TileRT、SGLang、vLLM）在 10 分 30 秒内生成用户 Token 的总量。图表以时间为横轴，以生成的总用户 Token 数为纵轴，三条曲线分别代表三种框架的表现：TileRT 的曲线增长最快，在 10 分 30 秒时生成了 195,598 个 Token，显著领先；SGLang 生成了 62,828 个 Token，vLLM 生成了 48,908 个 Token。下方的统计信息显示，TileRT 的实时用户 TPS（每秒生成 Token 数）分别是 SGLang 的 5.3 倍、vLLM 的 4.6 倍，SGLang 和 vLLM 相比 TileRT 在相同的时间少生成 3.1 倍和 4.0 倍的 Token。图表底部的注释说明，TileRT 和 SGLang 使用了 MTP=3 的设置，而 vLLM 因在 MTP=3 时失败，使用了 MTP=1 的设置，这也在一定程度上影响了其性能表现。整体来看，TileRT 在该测试场景下展现出了压倒性的 Token 生成效率优势。 TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代

TileRT：Ultra-Low-Latency LLM Inference
A revolutionary tile-level runtime engine that unlocks inference speed for state-of-the-art AI models.
在线 Demo: tilert.ai
GitHub: https://github.com/tile-ai/tilert

在当今大语言模型（LLM）应用中，延迟往往是决定用户体验的关键——高频交易、交互式 AI、智能代理、实时决策、AI 辅助编程……这些场景都对单个请求的响应速度提出了严苛要求。

然而， 传统的推理系统大多为高吞吐批量处理优化，难以兼顾模型规模与响应速度。

TileRT 正是为此而生——一个专注于超低延迟的 LLM 推理运行时。它采用创新的tile 级任务分解与编译器驱动技术， 将算子拆解为细粒度 tile 任务，并通过动态调度最大化计算、I/O 和通信的重叠。

在 不牺牲模型质量（无需量化或蒸馏）的前提下，将数百亿参数模型的单 token 输出时间（TPOT）压至毫秒级。

今天，终于可以激动地宣布 TileRT v0.1.3 正式发布！这是 TileRT 发展历程中的里程碑版本，不仅首次实现对 GLM-5 模型的完整支持，更在性能上再创新高——DeepSeek-V3.2 达到 600+ tokens/s，GLM-5-FP8 达到 500+ tokens/s（8× NVIDIA B200，batch size=1）。

同时，在线 Demo 平台 tilert.ai 现已上线，欢迎所有开发者立即体验超低延迟推理的魅力！

需要补充说明的是，TileRT、TileLang、TileScale 这三个项目在 Tile-AI 生态系统中是紧密相连、分工明确的三层技术体系。简单来说，它们是 “编程语言（TileLang）— 编译/分布式框架（TileScale）— 运行时引擎（TileRT）” 的关系，共同服务于超低延迟的大模型推理这一核心目标。

总得来说：
* TileLang 负责 “怎么写得爽”——让开发者高效地创造高性能算子。
* TileScale 负责 “怎么铺得开”——让计算能高效地扩展到多卡环境。
* TileRT 负责 “怎么跑得快”——在实际推理中，将所有技术潜力兑现为极致的响应速度。

一、性能飞跃：刷新 LLM 推理速度纪录

在最新的评测中，使用 8× NVIDIA B200 GPU，以 batch size=1、输入长度覆盖 1K~192K 的真实场景，对比了主流推理系统（SGLang、vLLM）的性能。

TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代 GLM-5-FP8 Decoding with MTP 评估设置。批处理大小：1；横轴为输入序列长度：1K、16K、32K、64K、128K、150K、192K；纵轴为每秒生成的用户令牌数（UTPS）：1K；使用合成数据进行基准测试。SGLang v0.5.9.dev0，MTP=3；vLLM v0.16.0rc2.dev173，MTP=1（当MTP=3时vLLM失败，因此我们将MTP=1设置为vLLM-GPT5-recipe）；TileRT v0.1.3，MTP=3。在启用 MTP（多令牌预测）的情况下，GLM-5 模型在 FP8 精度下的解码速度表现。三种推理框架中，TileRT（橙色）在所有长度下均显著领先，SGLang（绿色）和 vLLM（蓝色）则明显落后。随着输入长度增加，各框架性能均有所下降，但 TileRT 始终保持绝对优势，体现了其在长上下文场景下的高效解码能力。 TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代 GLM-5-FP8 Decoding Speed without MTP 评估设置。批处理大小：1；横轴为输入序列长度：1K、16K、32K、64K、128K、150K、192K；纵轴为每秒生成的用户令牌数（UTPS）：1K；使用合成数据进行基准测试。SGLang v0.5.9.dev0；vLLM v0.16.0rc2.dev173；TileRT v0.1.3。三种推理框架中，TileRT（橙色）在所有长度下均显著领先，SGLang（绿色）和 vLLM（蓝色）则明显落后。随着输入长度增加，各框架性能均有所下降，但 TileRT 始终保持绝对优势，体现了其在长上下文场景下的高效解码能力。

结果显示，TileRT v0.1.3 在 DeepSeek-V3.2 和 GLM-5-FP8 上均取得显著优势 ：

| 模型 / 框架 | 配置 | 性能（tokens/s） |
| :— | :— | :— |
| DeepSeek-V3.2 | MTP=3 | ~600 |
| GLM-5-FP8 | MTP=3 | ~500 |
| 对比：SGLang v0.5.9 | MTP=3 | 显著低于 TileRT |
| 对比：vLLM v0.16.0 | MTP=1（MTP=3 无法运行） | 显著低于 TileRT |

这一成绩意味着：即使是千亿参数级的模型，TileRT 也能在单用户请求下实现实时流畅的生成 ，为交互式 AI 应用打开了全新可能。

二、核心功能更新：不止于快

2.1 全面支持 GLM-5 模型 🔥

TileRT 成为首批支持最新 GLM-5 模型推理的系统之一。针对 GLM-5 的独特架构（dim=6144，n_heads=64，MLA 注意力，MoE 等）深度优化：

完整实现关键算子：完整支持 MLA（Multi-head Latent Attention）、MoE（Mixture of Experts）、MTP（Multi-Token Prediction）等核心机制。
专用 CUDA 内核：开发了 down_allreduce_glm5_op、expert_down_allreduce_glm5_op、rmsnorm_head_proj_glm5_op 等 GLM-5 专用算子。
精度优化：部分算子新增 FP16 MMA 算法路径，以满足 GLM-5 的精度需求。

无论是研究 GLM-5 的应用，还是探索下一代模型架构，TileRT 都能提供最极速的推理体验。

2.2 内建 Weight Converter：告别繁琐的权重转换 🚀

过去，使用 TileRT 需要下载预转换的权重，流程繁琐。v0.1.3 引入 内建权重转换器 ，可以直接从官方源（如 Hugging Face）下载原始权重，然后通过一行命令完成转换：

“`bash

转换 DeepSeek-V3.2 权重

python -m tilert.models.preprocess.weight_converter
–model_type deepseek-v32
–model_dir “/path/to/DeepSeek-V3.2”
–save_dir “/path/to/DeepSeek-V3.2-TileRT”

转换 GLM-5-FP8 权重

python -m tilert.models.preprocess.weight_converter
–model_type glm-5
–model_dir “/path/to/GLM-5-FP8”
–save_dir “/path/to/GLM-5-FP8-TileRT”
“`

转换后，只需设置环境变量 MODEL_WEIGHTS_DIR 指向保存目录，即可快速加载模型。这一改进大幅简化了部署流程 ，消除了对第三方预转换权重的依赖。

2.3 Top-P 采样与动态参数调整 🎛️

新版本增加了完整的 Top-P (Nucleus) 采样 支持，并允许在运行时动态调整采样参数：

temperature：采样温度
top_p：Nucleus 采样阈值
top_k：Top-K 候选数
sampling_seed：采样种子（支持每请求固定）

通过 update_sampling_params() API，可以随时切换采样策略，系统会自动重新捕获 CUDA Graph 以应用新参数，无需重新初始化模型。

2.4 全新 Benchmark 框架 📊

为了帮助开发者更科学地评估性能，新增了模块化 Benchmark 套件 ，支持短提示、编程任务、长文本等多种场景，并可一键测试贪婪解码、带 MTP、带 Top-P 采样等模式，最终输出清晰的 Markdown 汇总表。无论是调优还是对比，都能事半功倍。

三、架构重构：为多模型扩展奠定基础

v0.1.3 对 Python 层进行了大规模架构重构 ，从单文件整体式进化为高度模块化设计：

四、在线体验：tilert.ai 正式上线

再多的数据都不如一次亲身体验。TileRT 在线 Demo 平台 tilert.ai 现已开放！

用户可直接在浏览器中与 GLM-5 和 DeepSeek-V3.2 模型对话，体验 实时生成 的流畅效果。无论是测试长文本生成、多轮对话，还是验证 600 tokens/s 的推理速度，均可访问 tilert.ai 进行尝试。

DeepSeek-V3.2 的对话界面，左侧显示了账号验证方法，右侧实时 TPS 峰值达 619.91，平均为 397.48。用户提问 “洗车店距家 50 米，该开车还是步行” TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代

DeepSeek-V3.2的对话界面，在回答“是否知道 TileRT 这个开源项目”的问题时。右侧显示实时TPS为0，峰值TPS达614.03，平均TPS为395.95。

TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代如果使用人多，会出现当前排队位次，上图为 1，并提示 “当前排队人数较多”，系统正在为用户分配独占 GPU 推理节点

五、快速上手：五分钟运行 TileRT

根据 README 文档，下面整理了最简安装与使用流程。

5.1 环境要求

硬件：8× NVIDIA B200 GPUs（当前预览版支持此配置）
系统：Linux x86_64 (Ubuntu 20.04+)
Python：3.11~3.12
CUDA：12.9（与 PyTorch CUDA 12.8/12.9 wheel 匹配）

5.2 安装步骤（推荐 Docker）

“`bash

1. 拉取官方Docker镜像

docker pull tileai/tilert:v0.1.0

2. 启动容器（挂载工作目录）

export WORKSPACE_PATH=”/path/to/your/workspace”
docker run –gpus all -it
-v $WORKSPACE_PATH:/workspace/
tileai/tilert:v0.1.0

3. 在容器内安装TileRT

pip install tilert
“`

5.3 权重转换与模型加载

按照上文所述，使用 weight_converter.py 转换官方权重，并设置环境变量：

bash export MODEL_WEIGHTS_DIR="/path/to/converted_weights"

5.4 运行生成示例（Python 脚本）

“`python
from tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator

generator = ShowHandsGenerator(
max_new_tokens=1000,
model_weights_dir=MODEL_WEIGHTS_DIR,
with_mtp=False # 或设为True启用多token预测
)
generator.from_pretrained()

prompt = “Tell me three jokes:n1. A dad joke,n2. A programmer joke,n3. A joke about LLM training.”
print(“Completion:”, generator.generate(prompt))
“`

启用 MTP（Multi-Token Prediction）时，可以看到类似 Accepted length: mean=2.77 min=1 max=4 的统计信息，表明每步解码平均接受多个 token，从而大幅提升生成速度。

详细示例及 MTP 用法，请参阅 GitHub 仓库中的文档。

六、展望未来

v0.1.3 奠定了 TileRT 多模型支持的基础，但 TileRT 团队不会止步。接下来将：

支持更多主流模型（如 GPT 系列、Claude 等）
优化更长序列（>192K）的推理性能
推出 Prefill-Decode 解耦部署方案
持续压低延迟，挑战极限

TileRT 是开源的，欢迎社区贡献。无论是框架开发者、模型研究者，还是对低延迟推理充满好奇的工程师，欢迎在 GitHub issue 上提问。

结语

从 DeepSeek-V3.2 的 600 tokens/s，到 GLM-5 的全面支持，再到在线 Demo 的上线，TileRT 正一步步兑现其“让最强模型跑得最快”的承诺。如果你正在构建对延迟敏感的 AI 应用，TileRT 将是你的不二之选。

现在就访问 tilert.ai 体验极速生成，或者按照本文指南本地部署，开启你的超低延迟推理之旅！

参考资料

[1] 在线 Demo: https://www.tilert.ai

[2] GitHub 仓库: https://github.com/tile-ai/tilert

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21459

TileRT v0.1.3 发布：GLM-5 支持上线，推理速度高达 600 tokens/s，引领千亿模型毫秒级响应新时代