推荐系统推理

Meta IKBO：如何通过内核内广播优化，将推荐系统推理延迟降低一个数量级？

推荐系统推理与大语言模型推理之间存在一个显著却常被忽略的差异：同一请求中的大量候选内容，往往共享同一份用户上下文信息。在传统实现中，这意味着用户嵌入、用户序列等“请求级共享特征”必须反复复制，才能与候选批次对齐并送入交互层进行计算。这一复制操作看似只是“广播”，但在工业级部署中，它会持续吞噬显存带宽、推高 IO 成本，并导致延迟随候选数量线性恶化。 In-…

大模型推理 1天前
70000