当 AI 智能体逐渐走出对话框,真正的挑战已不再是“回答得多聪明”,而是能否像人一样完成任务的闭环:看懂屏幕、点击按钮、填写表单、整理文件、生成交付物,并将结果同步回团队协作系统。
我们开源的 Open Cowork,正是一次面向“桌面端虚拟同事”的实践。它支持一键安装、无需编写代码,让模型在安全沙箱中操作你的工作空间,既能生成 PPT、Word、Excel、PDF 等专业成果,也能通过图形用户界面直接操作电脑,完成更复杂、更通用的跨应用流程。

- 项目地址:https://github.com/OpenCoworkAI/open-cowork
PPT生成
飞书操控
一、为何需要「能操作电脑」的 AI?
过去两年,大模型的推理与生成能力突飞猛进,但在真实办公场景中,高频任务往往卡在执行层面:
- 应用孤岛:网页、桌面应用、企业系统之间缺乏统一的 API 接口。
- 流程割裂:数据分散在浏览器、文档、即时通讯工具和本地文件中。
- 人工瓶颈:用户仍需充当“搬运工”,在不同窗口间手动复制粘贴。
我们认为,智能体不应只止步于“对话建议”。Open Cowork 的目标是将这些碎片化动作自动化:像人一样操作电脑,跑完完整流程,并以可交付的形式(文档、表格、PPT)落地,最终通过飞书等工具融入团队协作流。
二、Open Cowork 是什么?
Open Cowork 是 Claude Cowork 理念的开源增强实现。它提供 Windows 与 macOS 的一键安装包,核心是一个“沙箱化工作区”:模型被授权在指定的 Workspace 内读写文件、调用工具,并通过内置的 Skills 系统将数据加工成专业交付物。
此外,Open Cowork 不仅仅是 Claude Cowork 的开源复刻。我们还实现了近期热门的 OpenClaw 的核心远程控制功能(例如通过飞书远程发送指令并接收回复),并支持对电脑端应用的通用 GUI 操作(例如支持模型操作 Cursor 应用进行代码的迭代改进与交互测试),这对于没有实现 MCP 接口的桌面应用尤为重要。
能力对比一览:
| 特性 | MCP & Skills | Remote Control (远程协作) | GUI Operation (屏幕操作) |
| :— | :— | :— | :— |
| Claude Cowork | ✅ | ❌ | ❌ |
| OpenClaw | ✅ | ✅ | ❌ |
| Open Cowork | ✅ | ✅ | ✅ |
三、三大核心能力组合:Skills × GUI × Remote
1. Skills:面向交付的“工作流技能库”
智能体的价值不应止步于聊天窗口。Open Cowork 内置了标准化的 Skills 系统(支持自定义与扩展),核心目标是产出可直接使用的文件。
- 覆盖主流格式:支持 PPTX、DOCX、XLSX、PDF 的原生生成与编辑。
- 结构化输出:无论是将非结构化文本转为 Excel 报表,还是根据大纲自动生成演示文稿,模型都能直接交付“半成品”甚至“成品”,而非中间态的文本。
(视频示例:PPT 制作——从本地文件/大纲自动生成可编辑的 PPTX)
2. GUI:让模型像人一样操作电脑,扩展能力边界
API 总有覆盖不到的地方,但 UI 界面是通用的。GUI 模块让模型具备了“人类操作”的能力,将智能体的可用性扩展到操作系统层面。
- Screen-to-Action:通过截图理解当前 UI 状态,规划并执行鼠标点击、拖拽、文本输入等动作。
- 跨应用自动化:能够处理复杂的跨软件链路(例如:从 ERP 抓取数据 -> 填入 Excel -> 导出 PDF)。
在产品体验上,我们强调的是“能做更多事、像人一样动手”。对于 GUI 理解与操作任务,建议选择更强的多模态模型以获得更稳定的步骤执行。
(视频示例:GUI 操作——利用 GUI 界面操作 Cursor 编写小程序并迭代改进)
3. Remote:接入飞书,将其变为真正的“虚拟同事”
如果说 GUI 让它“会做事”,那么 Remote 则让它“懂协作”。Open Cowork 拒绝做一个孤独的桌面程序,通过接入飞书等协作平台,它打通了本地执行与团队协同的壁垒。
- 闭环工作流:AI 在你电脑上跑完数据处理(GUI/Skills),随后就能将做好的报表发送到部门群聊(Remote),或同步到在线文档。
- 真正的虚拟同事:它既有本地环境的执行权限,又有团队系统的沟通权限。产出不再停留在你的硬盘里,而是直接流动到团队的业务流中。
(视频示例:远程操控——利用飞书远程操控 Open Cowork)
四、安全性:让“能动手”尽量可控
桌面端智能体的能力越强,安全边界就越重要。Open Cowork 坚持“默认安全”的设计原则,将所有操作默认限制在你选定的 Workspace 内。同时,我们提供更强的虚拟机级隔离选项,以降低对宿主机的影响。
- Workspace 限制:文件读写权限被严格圈定在用户授权的目录下,防止全盘扫描。
- 环境隔离(Sandbox):提供基于虚拟化的强隔离方案。
- Windows:推荐使用 WSL2 子系统运行核心逻辑。
- macOS:适配 Lima 虚拟机环境。通过将命令执行放入隔离沙箱,最大程度降低误操作风险。
五、如何快速上手(3 分钟)
- 下载并安装:Windows 使用 .exe 安装包,macOS (Apple Silicon) 使用 .dmg 安装包。
- 配置模型:在设置页面填写 API Key、Base URL 与模型名称(支持多家 OpenAI-compatible/Anthropic-compatible 服务提供商)。
- 选择工作区:授权一个你希望 AI 操作的文件夹作为 Workspace。
- 开始协作:例如,发出指令:“读取这个文件夹里的 financial_report.csv,生成 5 页 PPT 总结,并把结果发到飞书群里。”
六、开源与共建
Open Cowork 以 MIT License 开源,欢迎开发者贡献新的 Skills、MCP Connector、Remote 集成与 GUI 操作优化。我们希望和更多社区伙伴一起,将“桌面虚拟同事”从概念演示发展为可持续迭代的基础设施。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23560
