GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus

400 tokens每秒。这不是实验室里的峰值，而是API对外承诺的稳定输出速度。智谱刚刚放出的GLM-5.1-HighSpeed，直接把大模型推理速度拉到了一个新量级——比普通版GLM-5.1快了近7倍，甚至把Gemini 3.5 Flash甩在了身后。

GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus

速度翻倍不稀奇，稀奇的是它没有缩水。过去行业里默认的潜规则是：要快，就得用小模型；用小模型，就得接受降智。GLM-5.1-HighSpeed直接打破了这条铁律——它跑的还是GLM-5.1那个旗舰模型，能力一分没减。

我第一时间在Claude Code里配上了这个高速版，和普通GLM-5.1做了个直观对比。同样两个指令，普通版从发出去到回复用了31秒，高速版11秒搞定。Claude Opus 4.7跑同样的任务，花了47秒。

这种差距在真实开发场景里被放得更大。我试了一个完整的MVP开发任务：从头脑风暴开始，和AI聊了几轮收敛需求，然后它自己写Spec文档、写计划文档，拆出10个子任务，派SubAgent逐个实现。之前用GLM-5.1或者Opus 4.7，这一套下来至少1到2个小时。GLM-5.1-HighSpeed只用了11分钟。而且前置头脑风暴里的追问和澄清一个接一个，快到我来不及反应。

GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus

代码能力是GLM-5.1的强项，高速版完全继承了下来。我让它生成一个类似《我的世界》的3D游戏，直接能在网页里玩。它写完就能跑，没有任何报错。

又试了生成复杂网页，40秒搞定；生成Word文件，20秒搞定。

GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus

为了确认高速版没有牺牲质量，我把两个模型生成的网页代码丢给Claude Opus 4.7打分。结论是高速版的交付结果反而更好。办公场景也一样——让它读月报模板和投诉表格，写一份总结报告，高速版产出的质量同样胜出。 GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus

GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus

为什么能这么快？

核心秘密藏在智谱自研的TileRT推理引擎里。这个引擎做了三件事：

第一，彻底抛弃了传统推理框架的调度方式。主流框架以operator/kernel为基本调度单元，每个算子都要走一遍启动→读权重→计算→写回→同步的完整流程。当推理进入单token、小batch、多卡场景，算子被切到微秒级，原本可以忽略的调度、访存与同步开销被急剧放大。GPU不是没有算力，而是算力被困在了kernel边界之间。

TileRT的做法是在编译期把整个计算图静态编排为一个常驻GPU的persistent Engine Kernel，只Launch一次。算子间的中间结果不再写回Global Memory，而是经由Register、Shared Memory与L2 Cache直传。 GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus

第二，多卡场景下，不同GPU不再执行同构逻辑，而是按计算密度与数据依赖被特化为不同worker。以GLM-5.1为例，GPU 0专职Sparse Indexer，GPU 1–7承担MLA注意力主干，跨卡的广播、归约与残差加被压缩进同一个通信原语。

第三，动态批处理、请求合并、KV缓存调度优化，高并发场景下的尾延迟显著下降。推理集群部署、网络链路、负载均衡的协同优化，保证400 TPS不是峰值数字，而是稳定的生产可用水平。

对AI产品意味着什么？

如果模型的智能不衰减，响应速度大幅提升，很多产品的体验能提升一个量级。

最近开源的一个语音优先的Agent叫Lumi，可以通过唤醒词唤醒住在你电脑的Agent，直接语音告诉它要做啥，做完也会语音回复你。 GLM-5.1-HighSpeed实测：400 token/s极速体验，智商速度双杀Claude Opus 比如我说：帮我整理一下桌面上的文件。这个任务真实需要五六分钟才能完成。等干完活，语音播报反馈给用户。如果模型推理速度慢，5分钟后用户早忘了这茬，突然冷不丁冒出一句回复，不是惊喜而是惊吓。

但如果模型推理速度超快，Agent调用的链路足够高效，这种场景的用户体验就会大幅提升。

从WebDev Arena排行榜的数据看，GLM-5.1分数1532，排名第5，超过Sonnet 4.6的1524分。旗舰级能力与极致速度兼得，这可能是今年以来大模型推理领域最实在的突破。

唯一遗憾的是上下文窗口还是200K。期待1M版本。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/37092