本地推理 - 鲸林向海

突破硬件限制：ONNX Runtime GenAI实现LLM本地CPU推理新范式

有时小模型就足够了，而且你并不总是需要 GPU。将一些“工具型”任务直接跑在 CPU 上有很多理由：有时你就是没有 GPU；或者你希望数据留在本地；又或者你只是想保持架构简单。这就是 ONNX Runtime GenAI 的用武之地。它让你可以在想要的地方运行模型：有 GPU 就用 GPU，没有就跑 CPU，而且无需改一行代码。本文将展示它如何工作。所有示…

2026年2月7日

179000

AI产业动态

RunAnywhere：让大模型在手机端实现完全本地化推理，隐私与性能兼得

今天介绍一个可以在手机本地运行的大模型项目。基于它，开发者成功在iPhone 16 Pro Max上部署了Llama 3.2 3B模型，实现了端到端的本地工具调用。完全本地化的AI处理这个项目最大的亮点是所有AI处理都在设备本地完成。LLM推理、工具调用决策、响应解析全部在iPhone上进行，只有在需要外部数据时才调用Foursquare API获取餐厅…

2026年1月27日

226000

AI产业动态

从AI作曲到智能创作中心：酷睿Ultra如何重塑PC的AI生产力边界

在数字内容创作日益普及的今天，AI技术正以前所未有的深度渗透到创意生产的各个环节。近期，QQ音乐推出的“AI作歌”功能，凭借其简洁的操作流程和本地化推理能力，引发了广泛关注。用户只需点击界面中的AI作歌按钮，输入创作灵感并选择曲风，系统便能在几分钟内生成包含完整结构的歌词与旋律。这一功能不仅降低了音乐创作的门槛，更揭示了AI PC作为新一代计算平台在重塑个人…

2025年12月16日

204000