GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破

GLM-5.1-HighSpeed 正式登场,输出速度达到每秒 400 token。不仅快,而且性能强悍,表现令人惊叹。我第一时间进行了实测,下面直接展示效果。

我在 Claude Code 中分别配置了 GLM-5.1 和 GLM-5.1-HighSpeed,先直观感受一下两者的速度差异。

GLM-5.1:发送两个指令后,从发出到收到回复大约需要 31 秒。

GLM-5.1-HighSpeed:同样的两个指令,发出后仅需 11 秒。

Claude Opus 4.7:可能受网络因素影响,Opus 4.7 耗时约 47 秒。

接下来验证 GLM-5.1-HighSpeed 的实际效果,视频均为正常速度,未做加速处理。让 GLM-5.1-HighSpeed 生成一个网页,40 秒即可完成:

再测试生成 Word 文件,20 秒搞定:

GLM-5.1 高速版打破了行业常规认知。此前业界普遍认为只有小尺寸模型才能实现高速推理,但小模型往往伴随着智商下降的问题。

然而,GLM-5.1 高速版基于智谱旗舰模型 GLM-5.1,这是国产大模型首次同时实现顶级智能与极致速度。

美中不足的是,GLM-5.1-HighSpeed 的上下文窗口仍为 200K。期待未来推出 1M 版本。


01 效果如何?

在模型智能方面,GLM-5.1 高速版完整保留了 GLM-5.1 的能力。

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破

我测试了几个案例,看看 GLM-5.1 高速版的实际表现。首先生成一个类似《我的世界》的 3D 游戏提示词:“帮我生成一个3d的游戏,类似我的世界。 我能直接在网页中玩”。

代码生成后直接运行,没有任何报错。输入上述提示词后,系统先利用 superpowers 的 brainstorming 功能进行头脑风暴,与 AI 多轮对话以收敛需求,随后编写 Spec 文档和计划文档。最后拆解为 10 个子任务,由 SubAgent 逐一实现,最终完成整个 MVP 版本。

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破

如果使用之前的 GLM-5.1 或 Opus 4.7,这一流程至少需要 1 到 2 个小时,而现在仅需 11 分钟即可完成。而且交付质量也有保障。

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破

前置的头脑风暴追问与澄清一个接一个,速度快到让我完全跟不上反应。

对于我这种深度依赖 Claude Code 的用户,这种体验和感受极具冲击力。此外,我还自测了几个简单案例,供大家参考。主要对比 GLM-5.1,看速度提升后模型能力是否下降。

网站生成: 与 GLM 5.1 对比,使用相同提示词和相同环境,仅模型不同。提示词:“基于桌面上的个人介绍文件, 生成一个个人介绍的网站, 风格使用 Awesome Design 里面的 Claude 的风格, 不需要头脑风暴,直接来吧。”

GLM-5.1:

GLM-5.1-HighSpeed:

直观感受上,GLM-5.1-HighSpeed 的效果确实稍好一些,而且比 GLM-5.1 快了 5 到 6 倍。我将两者生成的内容交给 Claude Opus 4.7 进行评分,最终结论是 GLM-5.1-HighSpeed 的交付结果更优。

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破

办公场景: 提示词:“读取桌面上的测试文件中的两个文件,一个是月报 word 模板,一个是近期用户投诉梳理表格. 请你从投诉数据中找出重复投诉,分析一下相关问题,基于 word 模板写一个月报总结。”

同样将交付结果交由 Claude Opus 4.7 评判。

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破


02 为什么这么快?

GLM-5.1 高速版由智谱 GLM 团队与 TileRT 团队联合打造,在三个层面进行了同步优化:

  • 推理引擎层: 针对 GLM-5.1 的架构特点,重写了核心推理路径,提升了单卡吞吐能力。
  • 调度系统层: 优化了动态批处理、请求合并和 KV 缓存调度,在高并发场景下显著降低了尾延迟。
  • 基础设施层: 对推理集群部署、网络链路和负载均衡进行了协同优化,确保 400 TPS 并非峰值数字,而是稳定的生产可用水平。

但最核心的创新在于 TileRT 推理引擎本身。

模型推理速度的上限由硬件决定,但实际系统往往远未达到这个上限。以 8 卡 H200 服务器为例,聚合内存带宽约为 38TB/s,理论上 decode 速度上限接近 1000 token/s,但实际推理服务通常只能跑出几十 token/s。

问题出在推理框架的调度方式上。主流框架以 operator/kernel 为基本调度单元,每个算子都要经历完整的启动、读取权重、计算、写回、同步流程。当推理进入单 token、小 batch、多卡场景时,算子被切分到微秒级,原本可忽略的调度、访存与同步开销被急剧放大。GPU 并不缺乏算力,而是算力被限制在了 kernel 边界之间。operator/kernel 这一执行抽象本身,已成为阻碍推理逼近硬件上限的结构性瓶颈。

TileRT 的做法是彻底抛弃 Runtime 层的动态调度,在编译期将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破

单卡内部,计算、异步 IO 与通信被拆解为 Tile 级微任务。整个推理过程只启动一次,算子间的中间结果不再写回 Global Memory,而是通过 Register、Shared Memory 与 L2 Cache 直接传输。

在多卡场景下,不同 GPU 不再执行同构逻辑,而是根据计算密度与数据依赖被特化为不同的 worker。以 GLM-5.1 为例,GPU 0 专职 Sparse Indexer,GPU 1 到 7 承担 MLA 注意力主干,跨卡的广播、归约与残差加被压缩进同一个通信原语。

最终,推理的调度单元从 operator/kernel 降维到了 tile。


03 利好响应速度要求高的 AI 产品

如果模型的智能不衰减,而响应速度大幅提升,许多产品的用户体验将提升一个量级。例如,我最近开源了一个语音优先的 Agent:Lumi。它可以通过唤醒词激活,常驻在电脑中,用户直接语音告知任务,完成后也会语音回复。

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破

  • 开源地址:https://github.com/Wechat-ggGitHub/Lumi

比如我说:“钱多多,请你帮我把桌面上的文件整理一下。” 这个任务实际需要五六分钟才能完成。下面的视频做了倍速处理。

你看,等任务完成后,语音播报反馈给用户:“主人,我帮你整理好了。” 但如果 5 分钟后用户早已忘记这回事,这句任务完成的语音回复带来的就不是惊喜,而是惊吓了——突然冷不丁冒出一句话,体验很不友好。

但如果模型推理速度极快,Agent 调用链路足够高效,再配合一些产品细节打磨,这种场景的用户体验就会大幅提升。至少从我最近 Vibe Coding 开发 Lumi 的切身感受来看,速度是影响用户体验非常关键的一环。相信后续许多对时延要求很高的 AI 产品,都会选择 GLM-5.1-HighSpeed 作为底模。


04 点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目。如果你懒得翻文章一个个找,直接关注微信公众号:逛逛 GitHub,后台对话聊天即可:

GLM-5.1-HighSpeed实测:400 token/s,速度与智商兼得,国产大模型首次突破


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36018

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐