Mac本地AI新突破：4B模型实现476 tokens/s，数据不上云也能操控桌面

《Mac本地AI新突破：4B模型实现476 tokens/s，数据不上云也能操控桌面》

前段时间，一个名为 Skill 的开源项目引起了关注，它能让 Agent 控制你的 Mac。这个工具通过纯视觉方式理解桌面上的任何软件界面，像人类一样进行操作，并且所有处理都在你自己的电脑上完成，数据不会上传到云端。

继 Skill 开源之后，该团队最近终于开源了其端侧模型。同时，他们还开源了一个名为 Cider 的推理加速框架，专门为 Apple Silicon 上的 MLX 模型提供加速。这两个项目结合，将端侧 AI 从“能跑”提升到了“跑得快、跑得好”的水平。未来，该团队还将开源 mano-p 模型的训练方法，帮助开发者利用自己的数据训练定制化的 GUI Agent 模型。

Mac本地AI新突破：4B模型实现476 tokens/s，数据不上云也能操控桌面

01 一个能在 Mac 本地运行的 GUI Agent

Mano-P 是一款 GUI-VLA 模型，它通过纯视觉方式理解和操作图形界面，不依赖 CDP 协议或解析 HTML，只需直接查看屏幕截图就能定位界面元素、执行点击输入、完成复杂操作。

它不局限于浏览器场景，可以操控桌面软件、专业工具和 3D 应用。训练数据方面，它基于 6 万条 GUI 轨迹数据，覆盖 300 万+动作，涉及主流桌面和 Web 操作场景。性能数据也非常亮眼：4B 量化模型在 Apple M4 Pro 上实现了 476 tokens/s 的预填充速度和 76 tokens/s 的解码速度，峰值内存仅需 4.3GB。这个 4B 的小模型在 CUA 任务上实现了与云端大模型相当的准确率，并且完全在本地运行，所有截图和任务数据都不离开设备。它还支持离线长任务自主规划，复杂业务流程可以完全不联网就完成自主决策和纠错。

安装过程非常简单，只需一行命令：

brew tap HanningWang/tap
brew install mano-cua

安装完成后即可使用：

mano-cua run "打开微信告诉xxx会议延期"

当然，它也支持通过 Skill 的方式接入。

02 Cider：让端侧模型跑得更快的加速框架

Mano-P 能在 Mac 上运行得如此之快，背后离不开 Cider 的支持。Cider 是团队自研的推理加速框架，基于 Apple MLX 生态。它补齐了 MLX 原生框架缺失的 W8A8 和 W4A8 量化计算能力。目前，MLX 支持 W4A16、W8A16 等权重量化模式，但缺少激活量化。Cider 通过调用 Apple 底层的 Metal 4 API，首次在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。

实测数据显示：在 W8A8 模式下，算子速度比 MLX 原生提升了 1.4x 到 1.9x，具体取决于 batch size。以 Qwen3-8B 为例，FP16 原生预填充速度为 1695 tokens/s，经过 Cider 的 W8A8 加速后可达 2531 tokens/s，提升了近 1.5 倍。Llama3-8B 也类似，从 1727 tokens/s 提升到了 2520 tokens/s。对于 Qwen3-VL-2B 这样的视觉语言模型，在 chunked prefill 场景中，端到端预填充加速了 57% 到 61%。

接入方式极其简单，只需一行代码就能将任何 MLX 模型的 Linear 层替换为 Cider 加速版本：

from cider import convert_model, is_available

model, proc = load("path/to/model")
if is_available():
convert_model(model)  # CiderLinear auto-detects:
# seq_len > 1 - W8A8 INT8 TensorOps (faster prefill)
# seq_len == 1 - INT8 MV kernel (near-native decode speed)
else:
pass  # Falls back to standard MLX inference on M4

它会自动判断：当 seq_len > 1 时使用 W8A8 INT8 TensorOps 加速预填充；当 seq_len == 1 时回退到原始权重，以确保解码性能最优。整个过程无需手动切换。

Cider 不仅适用于 Mano-P，任何运行在 MLX 上的模型（如 Qwen、Llama、Mistral）都可以使用 Cider 进行加速。

03 用 Mano-P 能做什么

首先，它可以实现全自动化应用构建流程。你只需用自然语言描述需求，系统会依次完成需求澄清、架构设计、代码生成和本地部署。随后进入多层级测试阶段，包括 API 接口测试、LLM 页面视觉检测，最后通过 VLA 模型进行端到端的 GUI 自动化测试。如果测试未通过，系统会自动定位问题、修复代码并重新部署，循环迭代直到全部通过。整个过程无需人工干预。

此外，它还能用于商业视频智能系统。从下发指令开始，系统会自动完成视频生成、上传、分析、剪辑和二次评测。系统可以自主操作网页和剪辑软件，处理文件、修改字幕，最终生成包含主观评价和客观指标的分析报告。

这些场景的核心特点是一致的：大量截图和界面操作数据全部在本地处理，绝不上传到任何云端。从成本角度看，这更有意义。在全自动编程流水线中，GUI 测试消耗的云端 token 占比超过 59%。API 测试只能验证接口是否正常，但软件是否真正可用，仍需有人打开界面操作一遍才能确认。这个过程天然依赖多模态理解，模型需要持续处理截图、定位元素、执行操作并判断结果，推理消耗非常大。Mano-P 将这部分开销直接归零——无需调用 API，无需传输截图，不花费一分钱。

与 Claude Computer Use 对比：Claude 在 OSWorld 上的综合成绩确实更高（72.1% vs Mano-P 的 58.2%），但 Claude 需要云端 API 调用，你的截图和任务数据都要上传。而 Mano-P 完全在本地运行，数据不会离开设备。如果你的场景对隐私和安全有要求，比如企业内部系统测试或处理敏感数据的自动化流程，端侧方案是目前更现实的选择。

开源地址：
Mano-P：https://github.com/Mininglamp-AI/Mano-P
Cider：https://github.com/Mininglamp-AI/cider

Mano-P 证明了端侧 GUI Agent 的应用价值，而 Cider 则解决了端侧 AI 落地最底层的问题：如何让模型在 Mac 上更快、更省内存、更接近真实可用。从 Mano-P 到 Cider，明略科技正在构建端侧 AI 和私有化 AI 的基础设施能力。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33517

Mac本地AI新突破：4B模型实现476 tokens/s，数据不上云也能操控桌面

《Mac本地AI新突破：4B模型实现476 tokens/s，数据不上云也能操控桌面》

01 一个能在 Mac 本地运行的 GUI Agent

02 Cider：让端侧模型跑得更快的加速框架

03 用 Mano-P 能做什么

相关推荐

GitHub精选：4款实用开源工具，从年会抽奖到PDF处理一网打尽

GitHub Star 数最多的 10+ 款开源无代码 AI 工具

Graphify：开源知识图谱工具，71.5倍Token节省，48小时实现卡神知识库完全体

GitHub三大AI信息聚合利器：告别信息碎片化，智能聚合全网优质内容

四大前沿AI开源项目盘点：从智能体编排到浏览器自动化，加速你的开发效率