《Mac本地AI新突破:4B模型实现476 tokens/s,数据不上云也能操控桌面》
前段时间,一个名为 Skill 的开源项目引起了关注,它能让 Agent 控制你的 Mac。这个工具通过纯视觉方式理解桌面上的任何软件界面,像人类一样进行操作,并且所有处理都在你自己的电脑上完成,数据不会上传到云端。
继 Skill 开源之后,该团队最近终于开源了其端侧模型。同时,他们还开源了一个名为 Cider 的推理加速框架,专门为 Apple Silicon 上的 MLX 模型提供加速。这两个项目结合,将端侧 AI 从“能跑”提升到了“跑得快、跑得好”的水平。未来,该团队还将开源 mano-p 模型的训练方法,帮助开发者利用自己的数据训练定制化的 GUI Agent 模型。

01 一个能在 Mac 本地运行的 GUI Agent
Mano-P 是一款 GUI-VLA 模型,它通过纯视觉方式理解和操作图形界面,不依赖 CDP 协议或解析 HTML,只需直接查看屏幕截图就能定位界面元素、执行点击输入、完成复杂操作。
它不局限于浏览器场景,可以操控桌面软件、专业工具和 3D 应用。训练数据方面,它基于 6 万条 GUI 轨迹数据,覆盖 300 万+动作,涉及主流桌面和 Web 操作场景。性能数据也非常亮眼:4B 量化模型在 Apple M4 Pro 上实现了 476 tokens/s 的预填充速度和 76 tokens/s 的解码速度,峰值内存仅需 4.3GB。这个 4B 的小模型在 CUA 任务上实现了与云端大模型相当的准确率,并且完全在本地运行,所有截图和任务数据都不离开设备。它还支持离线长任务自主规划,复杂业务流程可以完全不联网就完成自主决策和纠错。
安装过程非常简单,只需一行命令:
brew tap HanningWang/tap
brew install mano-cua
安装完成后即可使用:
mano-cua run "打开微信告诉xxx会议延期"
当然,它也支持通过 Skill 的方式接入。
02 Cider:让端侧模型跑得更快的加速框架
Mano-P 能在 Mac 上运行得如此之快,背后离不开 Cider 的支持。Cider 是团队自研的推理加速框架,基于 Apple MLX 生态。它补齐了 MLX 原生框架缺失的 W8A8 和 W4A8 量化计算能力。目前,MLX 支持 W4A16、W8A16 等权重量化模式,但缺少激活量化。Cider 通过调用 Apple 底层的 Metal 4 API,首次在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。
实测数据显示:在 W8A8 模式下,算子速度比 MLX 原生提升了 1.4x 到 1.9x,具体取决于 batch size。以 Qwen3-8B 为例,FP16 原生预填充速度为 1695 tokens/s,经过 Cider 的 W8A8 加速后可达 2531 tokens/s,提升了近 1.5 倍。Llama3-8B 也类似,从 1727 tokens/s 提升到了 2520 tokens/s。对于 Qwen3-VL-2B 这样的视觉语言模型,在 chunked prefill 场景中,端到端预填充加速了 57% 到 61%。
接入方式极其简单,只需一行代码就能将任何 MLX 模型的 Linear 层替换为 Cider 加速版本:
from cider import convert_model, is_available
model, proc = load("path/to/model")
if is_available():
convert_model(model) # CiderLinear auto-detects:
# seq_len > 1 - W8A8 INT8 TensorOps (faster prefill)
# seq_len == 1 - INT8 MV kernel (near-native decode speed)
else:
pass # Falls back to standard MLX inference on M4
它会自动判断:当 seq_len > 1 时使用 W8A8 INT8 TensorOps 加速预填充;当 seq_len == 1 时回退到原始权重,以确保解码性能最优。整个过程无需手动切换。
Cider 不仅适用于 Mano-P,任何运行在 MLX 上的模型(如 Qwen、Llama、Mistral)都可以使用 Cider 进行加速。
03 用 Mano-P 能做什么
首先,它可以实现全自动化应用构建流程。你只需用自然语言描述需求,系统会依次完成需求澄清、架构设计、代码生成和本地部署。随后进入多层级测试阶段,包括 API 接口测试、LLM 页面视觉检测,最后通过 VLA 模型进行端到端的 GUI 自动化测试。如果测试未通过,系统会自动定位问题、修复代码并重新部署,循环迭代直到全部通过。整个过程无需人工干预。
此外,它还能用于商业视频智能系统。从下发指令开始,系统会自动完成视频生成、上传、分析、剪辑和二次评测。系统可以自主操作网页和剪辑软件,处理文件、修改字幕,最终生成包含主观评价和客观指标的分析报告。
这些场景的核心特点是一致的:大量截图和界面操作数据全部在本地处理,绝不上传到任何云端。从成本角度看,这更有意义。在全自动编程流水线中,GUI 测试消耗的云端 token 占比超过 59%。API 测试只能验证接口是否正常,但软件是否真正可用,仍需有人打开界面操作一遍才能确认。这个过程天然依赖多模态理解,模型需要持续处理截图、定位元素、执行操作并判断结果,推理消耗非常大。Mano-P 将这部分开销直接归零——无需调用 API,无需传输截图,不花费一分钱。
与 Claude Computer Use 对比:Claude 在 OSWorld 上的综合成绩确实更高(72.1% vs Mano-P 的 58.2%),但 Claude 需要云端 API 调用,你的截图和任务数据都要上传。而 Mano-P 完全在本地运行,数据不会离开设备。如果你的场景对隐私和安全有要求,比如企业内部系统测试或处理敏感数据的自动化流程,端侧方案是目前更现实的选择。
开源地址:
Mano-P:https://github.com/Mininglamp-AI/Mano-P
Cider:https://github.com/Mininglamp-AI/cider
Mano-P 证明了端侧 GUI Agent 的应用价值,而 Cider 则解决了端侧 AI 落地最底层的问题:如何让模型在 Mac 上更快、更省内存、更接近真实可用。从 Mano-P 到 Cider,明略科技正在构建端侧 AI 和私有化 AI 的基础设施能力。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33517

