关键词: TileRT、大语言模型、推理引擎、低延迟、编译器
副标题: 600 tokens/s!TileRT 让千亿参数模型推理进入毫秒时代
TileRT v0.1.3 是一次里程碑式的发布,标志着 TileRT 从仅支持 DeepSeek-V3.2 单一模型扩展为多模型架构支持。本版本新增了对最新 GLM-5 模型的完整推理支持,并在 8× NVIDIA B200 GPU 上实现了令人瞩目的性能:GLM-5-FP8 高达 500 tokens/s,DeepSeek-V3.2 高达 600 tokens/s。
GLM-5 User Token Generation Race 对比图,展示了在单节点解码场景下,从 1K 到 200K 上下文长度时,三种推理框架(TileRT、SGLang、vLLM)在 10 分 30 秒内生成用户 Token 的总量。图表以时间为横轴,以生成的总用户 Token 数为纵轴,三条曲线分别代表三种框架的表现:TileRT 的曲线增长最快,在 10 分 30 秒时生成了 195,598 个 Token,显著领先;SGLang 生成了 62,828 个 Token,vLLM 生成了 48,908 个 Token。下方的统计信息显示,TileRT 的实时用户 TPS(每秒生成 Token 数)分别是 SGLang 的 5.3 倍、vLLM 的 4.6 倍,SGLang 和 vLLM 相比 TileRT 在相同的时间少生成 3.1 倍和 4.0 倍的 Token。图表底部的注释说明,TileRT 和 SGLang 使用了 MTP=3 的设置,而 vLLM 因在 MTP=3 时失败,使用了 MTP=1 的设置,这也在一定程度上影响了其性能表现。整体来看,TileRT 在该测试场景下展现出了压倒性的 Token 生成效率优势。 
- TileRT:Ultra-Low-Latency LLM Inference
- A revolutionary tile-level runtime engine that unlocks inference speed for state-of-the-art AI models.
- 在线 Demo: tilert.ai
- GitHub: https://github.com/tile-ai/tilert
在当今大语言模型(LLM)应用中,延迟往往是决定用户体验的关键——高频交易、交互式 AI、智能代理、实时决策、AI 辅助编程……这些场景都对单个请求的响应速度提出了严苛要求。
然而, 传统的推理系统大多为高吞吐批量处理优化,难以兼顾模型规模与响应速度。
TileRT 正是为此而生——一个专注于超低延迟的 LLM 推理运行时。它采用创新的tile 级任务分解与编译器驱动技术, 将算子拆解为细粒度 tile 任务,并通过动态调度最大化计算、I/O 和通信的重叠。
在 不牺牲模型质量(无需量化或蒸馏)的前提下,将数百亿参数模型的单 token 输出时间(TPOT)压至毫秒级。
今天,终于可以激动地宣布 TileRT v0.1.3 正式发布!这是 TileRT 发展历程中的里程碑版本,不仅首次实现对 GLM-5 模型的完整支持,更在性能上再创新高——DeepSeek-V3.2 达到 600+ tokens/s,GLM-5-FP8 达到 500+ tokens/s(8× NVIDIA B200,batch size=1)。
同时,在线 Demo 平台 tilert.ai 现已上线,欢迎所有开发者立即体验超低延迟推理的魅力!
需要补充说明的是,TileRT、TileLang、TileScale 这三个项目在 Tile-AI 生态系统中是紧密相连、分工明确的三层技术体系。简单来说,它们是 “编程语言(TileLang)— 编译/分布式框架(TileScale)— 运行时引擎(TileRT)” 的关系,共同服务于超低延迟的大模型推理这一核心目标。
| 项目 & 核心定位 | 主要职能 | 关键特点 |
| :— | :— | :— |
| TileLang – 编程语言/编译器前端 | 提供高层抽象,让开发者用接近数学公式的方式描述计算(如矩阵乘法、注意力机制),然后由编译器自动生成高性能的底层代码。 | 解放开发者:无需手写复杂的CUDA代码,开发效率倍增(代码量可减少约90%)。
硬件无关:一次编写,可部署到不同硬件架构(如英伟达GPU、国产摩尔线程GPU)。 |
| TileScale – 分布式编程与运行时框架 | 专注于跨设备(如多GPU)的任务调度和通信。当单个设备放不下巨大模型时,负责将模型切分并高效地协同多卡进行计算。 | 横向扩展:让TileLang编写的程序能无缝扩展到大规模集群。中提到的“跨多个设备的动态调度”技术,其成果将整合进TileScale。 |
| TileRT – 专注于推理的运行时引擎 | 接收来自TileLang的高效算子,并利用TileScale的分布式能力,在运行时动态地、超低延迟地执行推理任务。 | 极致延迟:专为单请求、低延迟场景(如实时对话)设计,而非高吞吐量批处理。
Tile级调度:将算子拆解为更细粒度的“tile”任务,极度重叠计算、I/O和通信,压榨硬件性能。 |
总得来说:
* TileLang 负责 “怎么写得爽”——让开发者高效地创造高性能算子。
* TileScale 负责 “怎么铺得开”——让计算能高效地扩展到多卡环境。
* TileRT 负责 “怎么跑得快”——在实际推理中,将所有技术潜力兑现为极致的响应速度。
一、性能飞跃:刷新 LLM 推理速度纪录
在最新的评测中,使用 8× NVIDIA B200 GPU,以 batch size=1、输入长度覆盖 1K~192K 的真实场景,对比了主流推理系统(SGLang、vLLM)的性能。
GLM-5-FP8 Decoding with MTP 评估设置。批处理大小:1;横轴为输入序列长度:1K、16K、32K、64K、128K、150K、192K;纵轴为每秒生成的用户令牌数(UTPS):1K;使用合成数据进行基准测试。SGLang v0.5.9.dev0,MTP=3;vLLM v0.16.0rc2.dev173,MTP=1(当MTP=3时vLLM失败,因此我们将MTP=1设置为vLLM-GPT5-recipe);TileRT v0.1.3,MTP=3。在启用 MTP(多令牌预测)的情况下,GLM-5 模型在 FP8 精度下的解码速度表现。三种推理框架中,TileRT(橙色)在所有长度下均显著领先,SGLang(绿色)和 vLLM(蓝色)则明显落后。随着输入长度增加,各框架性能均有所下降,但 TileRT 始终保持绝对优势,体现了其在长上下文场景下的高效解码能力。
GLM-5-FP8 Decoding Speed without MTP 评估设置。批处理大小:1;横轴为输入序列长度:1K、16K、32K、64K、128K、150K、192K;纵轴为每秒生成的用户令牌数(UTPS):1K;使用合成数据进行基准测试。SGLang v0.5.9.dev0;vLLM v0.16.0rc2.dev173;TileRT v0.1.3。三种推理框架中,TileRT(橙色)在所有长度下均显著领先,SGLang(绿色)和 vLLM(蓝色)则明显落后。随着输入长度增加,各框架性能均有所下降,但 TileRT 始终保持绝对优势,体现了其在长上下文场景下的高效解码能力。
结果显示,TileRT v0.1.3 在 DeepSeek-V3.2 和 GLM-5-FP8 上均取得显著优势 :
| 模型 / 框架 | 配置 | 性能(tokens/s) |
| :— | :— | :— |
| DeepSeek-V3.2 | MTP=3 | ~600 |
| GLM-5-FP8 | MTP=3 | ~500 |
| 对比:SGLang v0.5.9 | MTP=3 | 显著低于 TileRT |
| 对比:vLLM v0.16.0 | MTP=1(MTP=3 无法运行) | 显著低于 TileRT |
这一成绩意味着:即使是千亿参数级的模型,TileRT 也能在单用户请求下实现实时流畅的生成 ,为交互式 AI 应用打开了全新可能。
二、核心功能更新:不止于快
2.1 全面支持 GLM-5 模型 🔥
TileRT 成为首批支持最新 GLM-5 模型推理的系统之一。针对 GLM-5 的独特架构(dim=6144,n_heads=64,MLA 注意力,MoE 等)深度优化:
- 完整实现关键算子:完整支持 MLA(Multi-head Latent Attention)、MoE(Mixture of Experts)、MTP(Multi-Token Prediction)等核心机制。
- 专用 CUDA 内核:开发了
down_allreduce_glm5_op、expert_down_allreduce_glm5_op、rmsnorm_head_proj_glm5_op等 GLM-5 专用算子。 - 精度优化:部分算子新增 FP16 MMA 算法路径,以满足 GLM-5 的精度需求。
无论是研究 GLM-5 的应用,还是探索下一代模型架构,TileRT 都能提供最极速的推理体验。
2.2 内建 Weight Converter:告别繁琐的权重转换 🚀
过去,使用 TileRT 需要下载预转换的权重,流程繁琐。v0.1.3 引入 内建权重转换器 ,可以直接从官方源(如 Hugging Face)下载原始权重,然后通过一行命令完成转换:
“`bash
转换 DeepSeek-V3.2 权重
python -m tilert.models.preprocess.weight_converter
–model_type deepseek-v32
–model_dir “/path/to/DeepSeek-V3.2”
–save_dir “/path/to/DeepSeek-V3.2-TileRT”
转换 GLM-5-FP8 权重
python -m tilert.models.preprocess.weight_converter
–model_type glm-5
–model_dir “/path/to/GLM-5-FP8”
–save_dir “/path/to/GLM-5-FP8-TileRT”
“`
转换后,只需设置环境变量 MODEL_WEIGHTS_DIR 指向保存目录,即可快速加载模型。这一改进大幅简化了部署流程 ,消除了对第三方预转换权重的依赖。
2.3 Top-P 采样与动态参数调整 🎛️
新版本增加了完整的 Top-P (Nucleus) 采样 支持,并允许在运行时动态调整采样参数:
temperature:采样温度top_p:Nucleus 采样阈值top_k:Top-K 候选数sampling_seed:采样种子(支持每请求固定)
通过 update_sampling_params() API,可以随时切换采样策略,系统会自动重新捕获 CUDA Graph 以应用新参数,无需重新初始化模型。
2.4 全新 Benchmark 框架 📊
为了帮助开发者更科学地评估性能,新增了模块化 Benchmark 套件 ,支持短提示、编程任务、长文本等多种场景,并可一键测试贪婪解码、带 MTP、带 Top-P 采样等模式,最终输出清晰的 Markdown 汇总表。无论是调优还是对比,都能事半功倍。
三、架构重构:为多模型扩展奠定基础
v0.1.3 对 Python 层进行了大规模架构重构 ,从单文件整体式进化为高度模块化设计:
四、在线体验:tilert.ai 正式上线
再多的数据都不如一次亲身体验。TileRT 在线 Demo 平台 tilert.ai 现已开放!
用户可直接在浏览器中与 GLM-5 和 DeepSeek-V3.2 模型对话,体验 实时生成 的流畅效果。无论是测试长文本生成、多轮对话,还是验证 600 tokens/s 的推理速度,均可访问 tilert.ai 进行尝试。
DeepSeek-V3.2 的对话界面,左侧显示了账号验证方法,右侧实时 TPS 峰值达 619.91,平均为 397.48。用户提问 “洗车店距家 50 米,该开车还是步行” 
DeepSeek-V3.2的对话界面,在回答“是否知道 TileRT 这个开源项目”的问题时。右侧显示实时TPS为0,峰值TPS达614.03,平均TPS为395.95。
如果使用人多,会出现当前排队位次,上图为 1,并提示 “当前排队人数较多”,系统正在为用户分配独占 GPU 推理节点
五、快速上手:五分钟运行 TileRT
根据 README 文档,下面整理了最简安装与使用流程。
5.1 环境要求
- 硬件:8× NVIDIA B200 GPUs(当前预览版支持此配置)
- 系统:Linux x86_64 (Ubuntu 20.04+)
- Python:3.11~3.12
- CUDA:12.9(与 PyTorch CUDA 12.8/12.9 wheel 匹配)
5.2 安装步骤(推荐 Docker)
“`bash
1. 拉取官方Docker镜像
docker pull tileai/tilert:v0.1.0
2. 启动容器(挂载工作目录)
export WORKSPACE_PATH=”/path/to/your/workspace”
docker run –gpus all -it
-v $WORKSPACE_PATH:/workspace/
tileai/tilert:v0.1.0
3. 在容器内安装TileRT
pip install tilert
“`
5.3 权重转换与模型加载
按照上文所述,使用 weight_converter.py 转换官方权重,并设置环境变量:
bash
export MODEL_WEIGHTS_DIR="/path/to/converted_weights"
5.4 运行生成示例(Python 脚本)
“`python
from tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator
generator = ShowHandsGenerator(
max_new_tokens=1000,
model_weights_dir=MODEL_WEIGHTS_DIR,
with_mtp=False # 或设为True启用多token预测
)
generator.from_pretrained()
prompt = “Tell me three jokes:n1. A dad joke,n2. A programmer joke,n3. A joke about LLM training.”
print(“Completion:”, generator.generate(prompt))
“`
启用 MTP(Multi-Token Prediction)时,可以看到类似 Accepted length: mean=2.77 min=1 max=4 的统计信息,表明每步解码平均接受多个 token,从而大幅提升生成速度。
详细示例及 MTP 用法,请参阅 GitHub 仓库中的文档。
六、展望未来
v0.1.3 奠定了 TileRT 多模型支持的基础,但 TileRT 团队不会止步。接下来将:
- 支持更多主流模型(如 GPT 系列、Claude 等)
- 优化更长序列(>192K)的推理性能
- 推出 Prefill-Decode 解耦部署方案
- 持续压低延迟,挑战极限
TileRT 是开源的,欢迎社区贡献。无论是框架开发者、模型研究者,还是对低延迟推理充满好奇的工程师,欢迎在 GitHub issue 上提问。
结语
从 DeepSeek-V3.2 的 600 tokens/s,到 GLM-5 的全面支持,再到在线 Demo 的上线,TileRT 正一步步兑现其“让最强模型跑得最快”的承诺。如果你正在构建对延迟敏感的 AI 应用,TileRT 将是你的不二之选。
现在就访问 tilert.ai 体验极速生成,或者按照本文指南本地部署,开启你的超低延迟推理之旅!
参考资料
[1] 在线 Demo: https://www.tilert.ai
[2] GitHub 仓库: https://github.com/tile-ai/tilert
- LLM推理极限建模:Bandwidth, Compute, Sync and Capacity are All You Need
- 取代 NVIDIA 闭源 tileiras!开源编译器 FlashTile:一个透明、轻量、高效的 CUDA Tile IR 编译器!
- 无需手动构建MegaKernels!Luminal 编译生成 MegaKernels:解决 GPU SM 负载不均,消除内核启动开销与内存气泡,适配任意架构!
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21459
