状态机调度

智能体推理引擎TokenSpeed：重新定义LLM推理效率，优化从内核到调度全栈

大型语言模型推理的性能瓶颈，早已不再局限于“矩阵乘法运算的速度够不够快”这个单一维度。随着 Claude Code、Codex、Cursor 这类智能体编码系统从演示级产品蜕变为真正的生产力工具，推理系统所应对的流量特征也发生了根本性转变：上下文长度动辄超过 50K tokens，对话轮次跨越数十轮，工具调用、代码检索、补丁生成以及反思修正等操作不断交织在…

大模型推理 5天前
323000