Mac本地AI新突破:4B模型实现476 tokens/s,数据不上云也能操控桌面

《Mac本地AI新突破:4B模型实现476 tokens/s,数据不上云也能操控桌面》

前段时间,一个名为 Skill开源项目引起了关注,它能让 Agent 控制你的 Mac。这个工具通过纯视觉方式理解桌面上的任何软件界面,像人类一样进行操作,并且所有处理都在你自己的电脑上完成,数据不会上传到云端。

继 Skill 开源之后,该团队最近终于开源了其端侧模型。同时,他们还开源了一个名为 Cider 的推理加速框架,专门为 Apple Silicon 上的 MLX 模型提供加速。这两个项目结合,将端侧 AI 从“能跑”提升到了“跑得快、跑得好”的水平。未来,该团队还将开源 mano-p 模型的训练方法,帮助开发者利用自己的数据训练定制化的 GUI Agent 模型。

Mac本地AI新突破:4B模型实现476 tokens/s,数据不上云也能操控桌面

01 一个能在 Mac 本地运行的 GUI Agent

Mano-P 是一款 GUI-VLA 模型,它通过纯视觉方式理解和操作图形界面,不依赖 CDP 协议或解析 HTML,只需直接查看屏幕截图就能定位界面元素、执行点击输入、完成复杂操作。

它不局限于浏览器场景,可以操控桌面软件、专业工具和 3D 应用。训练数据方面,它基于 6 万条 GUI 轨迹数据,覆盖 300 万+动作,涉及主流桌面和 Web 操作场景。性能数据也非常亮眼:4B 量化模型在 Apple M4 Pro 上实现了 476 tokens/s 的预填充速度和 76 tokens/s 的解码速度,峰值内存仅需 4.3GB。这个 4B 的小模型在 CUA 任务上实现了与云端大模型相当的准确率,并且完全在本地运行,所有截图和任务数据都不离开设备。它还支持离线长任务自主规划,复杂业务流程可以完全不联网就完成自主决策和纠错。

安装过程非常简单,只需一行命令:

brew tap HanningWang/tap
brew install mano-cua

安装完成后即可使用:

mano-cua run "打开微信告诉xxx会议延期"

当然,它也支持通过 Skill 的方式接入。

02 Cider:让端侧模型跑得更快的加速框架

Mano-P 能在 Mac 上运行得如此之快,背后离不开 Cider 的支持。Cider 是团队自研的推理加速框架,基于 Apple MLX 生态。它补齐了 MLX 原生框架缺失的 W8A8 和 W4A8 量化计算能力。目前,MLX 支持 W4A16、W8A16 等权重量化模式,但缺少激活量化。Cider 通过调用 Apple 底层的 Metal 4 API,首次在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。

实测数据显示:在 W8A8 模式下,算子速度比 MLX 原生提升了 1.4x 到 1.9x,具体取决于 batch size。以 Qwen3-8B 为例,FP16 原生预填充速度为 1695 tokens/s,经过 Cider 的 W8A8 加速后可达 2531 tokens/s,提升了近 1.5 倍。Llama3-8B 也类似,从 1727 tokens/s 提升到了 2520 tokens/s。对于 Qwen3-VL-2B 这样的视觉语言模型,在 chunked prefill 场景中,端到端预填充加速了 57% 到 61%。

接入方式极其简单,只需一行代码就能将任何 MLX 模型的 Linear 层替换为 Cider 加速版本:

from cider import convert_model, is_available

model, proc = load("path/to/model")
if is_available():
convert_model(model)  # CiderLinear auto-detects:
# seq_len > 1 - W8A8 INT8 TensorOps (faster prefill)
# seq_len == 1 - INT8 MV kernel (near-native decode speed)
else:
pass  # Falls back to standard MLX inference on M4

它会自动判断:当 seq_len > 1 时使用 W8A8 INT8 TensorOps 加速预填充;当 seq_len == 1 时回退到原始权重,以确保解码性能最优。整个过程无需手动切换。

Cider 不仅适用于 Mano-P,任何运行在 MLX 上的模型(如 Qwen、Llama、Mistral)都可以使用 Cider 进行加速。

03 用 Mano-P 能做什么

首先,它可以实现全自动化应用构建流程。你只需用自然语言描述需求,系统会依次完成需求澄清、架构设计、代码生成和本地部署。随后进入多层级测试阶段,包括 API 接口测试、LLM 页面视觉检测,最后通过 VLA 模型进行端到端的 GUI 自动化测试。如果测试未通过,系统会自动定位问题、修复代码并重新部署,循环迭代直到全部通过。整个过程无需人工干预。

此外,它还能用于商业视频智能系统。从下发指令开始,系统会自动完成视频生成、上传、分析、剪辑和二次评测。系统可以自主操作网页和剪辑软件,处理文件、修改字幕,最终生成包含主观评价和客观指标的分析报告。

这些场景的核心特点是一致的:大量截图和界面操作数据全部在本地处理,绝不上传到任何云端。从成本角度看,这更有意义。在全自动编程流水线中,GUI 测试消耗的云端 token 占比超过 59%。API 测试只能验证接口是否正常,但软件是否真正可用,仍需有人打开界面操作一遍才能确认。这个过程天然依赖多模态理解,模型需要持续处理截图、定位元素、执行操作并判断结果,推理消耗非常大。Mano-P 将这部分开销直接归零——无需调用 API,无需传输截图,不花费一分钱。

与 Claude Computer Use 对比:Claude 在 OSWorld 上的综合成绩确实更高(72.1% vs Mano-P 的 58.2%),但 Claude 需要云端 API 调用,你的截图和任务数据都要上传。而 Mano-P 完全在本地运行,数据不会离开设备。如果你的场景对隐私和安全有要求,比如企业内部系统测试或处理敏感数据的自动化流程,端侧方案是目前更现实的选择。

开源地址:
Mano-P:https://github.com/Mininglamp-AI/Mano-P
Cider:https://github.com/Mininglamp-AI/cider

Mano-P 证明了端侧 GUI Agent 的应用价值,而 Cider 则解决了端侧 AI 落地最底层的问题:如何让模型在 Mac 上更快、更省内存、更接近真实可用。从 Mano-P 到 Cider,明略科技正在构建端侧 AI 和私有化 AI 的基础设施能力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33517

(0)
上一篇 6天前
下一篇 6天前

相关推荐

  • GitHub精选:4款实用开源工具,从年会抽奖到PDF处理一网打尽

    年会抽奖开源项目 推荐两个适用于年会场景的GitHub开源抽奖工具。 log-lottery该项目支持3D标签云效果,可将所有参与者的名字组合成旋转的球体、螺旋或网格,视觉效果颇具科技感。 无需编程知识,通过Excel导入人员名单并在后台简单设置奖项即可使用。项目支持播放抽奖音乐以烘托氛围,抽奖结果可直接导出为Excel文件。 lottery另一个基于 Ex…

    2025年12月10日
    78200
  • GitHub Star 数最多的 10+ 款开源无代码 AI 工具

    不久之前,用 AI 构建任何东西通常只有两种可能: 你是一名机器学习工程师 或者你根本就做不出来 现在,这一切变得非常不同。 今天,No‑Code AI 工具让开发者、创业者、设计师,甚至非技术团队都能构建严肃的 AI 产品——无需编写复杂的 ML 管道或从零训练模型。 但有个关键点:大多数榜单都聚焦于付费 SaaS 工具。这篇不是。 本文专注于开源 No‑…

    2025年12月25日
    78100
  • Graphify:开源知识图谱工具,71.5倍Token节省,48小时实现卡神知识库完全体

    Graphify:开源知识图谱工具,实现71.5倍Token节省与全自动知识库构建 AI领域的迭代速度令人惊叹。在Karpathy分享其个人知识库方法论后仅48小时,开源社区便推出了一个功能完备的实现方案。 Graphify 是一款零配置、支持全模态、可本地运行的知识图谱工具,以其高效的Token节省能力在GitHub上迅速获得了超过2000颗星。 该工具不…

    2026年4月7日
    2.5K00
  • GitHub三大AI信息聚合利器:告别信息碎片化,智能聚合全网优质内容

    GitHub三大AI信息聚合利器:告别信息碎片化,智能聚合全网优质内容 在信息爆炸的时代,优质内容往往散落在X、播客、博客、视频等多个平台。手动追踪不仅耗时,还容易遗漏。借助GitHub上基于AI的开源工具,我们可以实现信息的智能聚合与高效筛选,将碎片化信息整合为结构化、高价值的内容流。 01 AI 内容聚合平台 BestBlogs 是一个能够聚合X、小宇宙…

    2025年11月10日
    49500
  • 四大前沿AI开源项目盘点:从智能体编排到浏览器自动化,加速你的开发效率

    Claude Code 的开源外挂 Agents 是一个专为 Claude Code 设计的智能自动化和多智能体编排系统。借助该项目,开发者可以构建一个由不同 AI 专家组成的协作团队,而非仅依赖单一的 AI 助手。 该系统集成了丰富的资源,例如 63 个插件、85 个智能体以及 47 项技能: 该项目的一个核心优势在于其极致的 Token 效率与混合模型编…

    2025年12月14日
    45400