状态机调度

  • 智能体推理引擎TokenSpeed:重新定义LLM推理效率,优化从内核到调度全栈

    大型语言模型推理的性能瓶颈,早已不再局限于“矩阵乘法运算的速度够不够快”这个单一维度。 随着 Claude Code、Codex、Cursor 这类智能体编码系统从演示级产品蜕变为真正的生产力工具,推理系统所应对的流量特征也发生了根本性转变:上下文长度动辄超过 50K tokens,对话轮次跨越数十轮,工具调用、代码检索、补丁生成以及反思修正等操作不断交织在…

    大模型推理 5天前
    32300