GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus

400 tokens每秒。这不是实验室里的峰值,而是API对外承诺的稳定输出速度。智谱刚刚放出的GLM-5.1-HighSpeed,直接把大模型推理速度拉到了一个新量级——比普通版GLM-5.1快了近7倍,甚至把Gemini 3.5 Flash甩在了身后。

GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus

速度翻倍不稀奇,稀奇的是它没有缩水。过去行业里默认的潜规则是:要快,就得用小模型;用小模型,就得接受降智。GLM-5.1-HighSpeed直接打破了这条铁律——它跑的还是GLM-5.1那个旗舰模型,能力一分没减。

我第一时间在Claude Code里配上了这个高速版,和普通GLM-5.1做了个直观对比。同样两个指令,普通版从发出去到回复用了31秒,高速版11秒搞定。Claude Opus 4.7跑同样的任务,花了47秒。

这种差距在真实开发场景里被放得更大。我试了一个完整的MVP开发任务:从头脑风暴开始,和AI聊了几轮收敛需求,然后它自己写Spec文档、写计划文档,拆出10个子任务,派SubAgent逐个实现。之前用GLM-5.1或者Opus 4.7,这一套下来至少1到2个小时。GLM-5.1-HighSpeed只用了11分钟。而且前置头脑风暴里的追问和澄清一个接一个,快到我来不及反应。

GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus

代码能力是GLM-5.1的强项,高速版完全继承了下来。我让它生成一个类似《我的世界》的3D游戏,直接能在网页里玩。它写完就能跑,没有任何报错。

又试了生成复杂网页,40秒搞定;生成Word文件,20秒搞定。

GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus

为了确认高速版没有牺牲质量,我把两个模型生成的网页代码丢给Claude Opus 4.7打分。结论是高速版的交付结果反而更好。办公场景也一样——让它读月报模板和投诉表格,写一份总结报告,高速版产出的质量同样胜出。GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus

GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus

为什么能这么快?

核心秘密藏在智谱自研的TileRT推理引擎里。这个引擎做了三件事:

第一,彻底抛弃了传统推理框架的调度方式。主流框架以operator/kernel为基本调度单元,每个算子都要走一遍启动→读权重→计算→写回→同步的完整流程。当推理进入单token、小batch、多卡场景,算子被切到微秒级,原本可以忽略的调度、访存与同步开销被急剧放大。GPU不是没有算力,而是算力被困在了kernel边界之间。

TileRT的做法是在编译期把整个计算图静态编排为一个常驻GPU的persistent Engine Kernel,只Launch一次。算子间的中间结果不再写回Global Memory,而是经由Register、Shared Memory与L2 Cache直传。GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus

第二,多卡场景下,不同GPU不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同worker。以GLM-5.1为例,GPU 0专职Sparse Indexer,GPU 1–7承担MLA注意力主干,跨卡的广播、归约与残差加被压缩进同一个通信原语。

第三,动态批处理、请求合并、KV缓存调度优化,高并发场景下的尾延迟显著下降。推理集群部署、网络链路、负载均衡的协同优化,保证400 TPS不是峰值数字,而是稳定的生产可用水平。

对AI产品意味着什么?

如果模型的智能不衰减,响应速度大幅提升,很多产品的体验能提升一个量级。

最近开源的一个语音优先的Agent叫Lumi,可以通过唤醒词唤醒住在你电脑的Agent,直接语音告诉它要做啥,做完也会语音回复你。GLM-5.1-HighSpeed实测:400 token/s极速体验,智商速度双杀Claude Opus 比如我说:帮我整理一下桌面上的文件。这个任务真实需要五六分钟才能完成。等干完活,语音播报反馈给用户。如果模型推理速度慢,5分钟后用户早忘了这茬,突然冷不丁冒出一句回复,不是惊喜而是惊吓。

但如果模型推理速度超快,Agent调用的链路足够高效,这种场景的用户体验就会大幅提升。

从WebDev Arena排行榜的数据看,GLM-5.1分数1532,排名第5,超过Sonnet 4.6的1524分。旗舰级能力与极致速度兼得,这可能是今年以来大模型推理领域最实在的突破。

唯一遗憾的是上下文窗口还是200K。期待1M版本。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/37092

(0)
上一篇 11小时前
下一篇 11小时前