ONNX模型
-
突破硬件限制:ONNX Runtime GenAI实现LLM本地CPU推理新范式
有时小模型就足够了,而且你并不总是需要 GPU。将一些“工具型”任务直接跑在 CPU 上有很多理由:有时你就是没有 GPU;或者你希望数据留在本地;又或者你只是想保持架构简单。 这就是 ONNX Runtime GenAI 的用武之地。它让你可以在想要的地方运行模型:有 GPU 就用 GPU,没有就跑 CPU,而且无需改一行代码。本文将展示它如何工作。所有示…
有时小模型就足够了,而且你并不总是需要 GPU。将一些“工具型”任务直接跑在 CPU 上有很多理由:有时你就是没有 GPU;或者你希望数据留在本地;又或者你只是想保持架构简单。 这就是 ONNX Runtime GenAI 的用武之地。它让你可以在想要的地方运行模型:有 GPU 就用 GPU,没有就跑 CPU,而且无需改一行代码。本文将展示它如何工作。所有示…