本地推理

  • 突破硬件限制:ONNX Runtime GenAI实现LLM本地CPU推理新范式

    有时小模型就足够了,而且你并不总是需要 GPU。将一些“工具型”任务直接跑在 CPU 上有很多理由:有时你就是没有 GPU;或者你希望数据留在本地;又或者你只是想保持架构简单。 这就是 ONNX Runtime GenAI 的用武之地。它让你可以在想要的地方运行模型:有 GPU 就用 GPU,没有就跑 CPU,而且无需改一行代码。本文将展示它如何工作。所有示…

    2026年2月7日
    17900
  • RunAnywhere:让大模型在手机端实现完全本地化推理,隐私与性能兼得

    今天介绍一个可以在手机本地运行的大模型项目。基于它,开发者成功在iPhone 16 Pro Max上部署了Llama 3.2 3B模型,实现了端到端的本地工具调用。 完全本地化的AI处理 这个项目最大的亮点是所有AI处理都在设备本地完成。LLM推理、工具调用决策、响应解析全部在iPhone上进行,只有在需要外部数据时才调用Foursquare API获取餐厅…

    2026年1月27日
    22600
  • 从AI作曲到智能创作中心:酷睿Ultra如何重塑PC的AI生产力边界

    在数字内容创作日益普及的今天,AI技术正以前所未有的深度渗透到创意生产的各个环节。近期,QQ音乐推出的“AI作歌”功能,凭借其简洁的操作流程和本地化推理能力,引发了广泛关注。用户只需点击界面中的AI作歌按钮,输入创作灵感并选择曲风,系统便能在几分钟内生成包含完整结构的歌词与旋律。这一功能不仅降低了音乐创作的门槛,更揭示了AI PC作为新一代计算平台在重塑个人…

    2025年12月16日
    20400