4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

01 图片、PDF转为可编辑

Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和编辑,而非简单的背景图片。

它支持将上传的图片或PDF转换为 DrawIO (XML) 和 PPTX 格式。以下为原始图片与重建后可编辑版本的对比示例:

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

项目提供了一个Web界面,用户上传文件后可直接在嵌入的编辑器中进行实时修改。

开源地址:https://github.com/bit-datalab/edit-banana

02 小米开源具身智能大模型

小米机器人团队 Xiaomi Robotics 于今年2月开源了其阶段性研究成果:Xiaomi-Robotics-0。这是一个先进的视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在提升机器人的通用感知与实时执行能力。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

Xiaomi-Robotics-0 是一个拥有 47亿参数 的具身智能大模型。它不仅能理解复杂的视觉环境和语言指令,还能直接生成机器人的控制动作。该模型最大的特点是在保持强大泛化能力的同时,解决了大模型在机器人领域常见的推理延迟问题,实现了高性能的实时执行

开源地址:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

03 MyCodeAgent

MyCodeAgent 是一个旨在从零开始开发类似 Claude Code 代码智能体的开源项目。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目始于 Datawhale 的 Hello-Agent 开源教程,基于其骨架快速搭建了初始版本。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

初始版本虽然粗糙,但成功验证了核心工作流,并暴露出一系列工程问题,如工具失控、协议脆弱、上下文膨胀等。针对这些问题,项目进行了一系列系统性的工程化改造,核心思路是通过工具原子化、协议结构化、上下文治理、状态可观测等工程设计,将模型不确定的自由行为约束在可控范围内。

其开发理念认为,Agent 的核心价值并非追求模型的无限自由,而是通过扎实的工程设计驾驭模型能力,将其不可靠的聪明转化为稳定、可控的生产力,本质上是一个为大型语言模型的不确定性进行系统化纠偏和补漏的过程。

开源地址:https://github.com/YYHDBL/MyCodeAgent

04 开源的 AI 桌面助手

Accomplish 是一个开源的 AI 桌面助手。它将 AI 能力直接集成到本地桌面环境中,帮助用户自动化处理文件、文档和浏览器任务,同时高度重视隐私和本地控制。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

它可以根据文件内容或用户设定的规则,自动对文件进行分类、重命名、移动或清理。同时支持撰写草稿、总结长文档、重写报告或会议记录,并能与 Notion、Google Drive、Dropbox 等工具配合使用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

此外,它还能自动化执行网页调研、表格填写等浏览器工作流。用户可以将可重复的工作流程定义为 Skill 并保存,方便随时调用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该助手能够从散乱的文件和笔记中提取信息,自动生成周报或会议准备资料。对于希望利用AI打理电脑文件、自动执行重复性任务,且不希望将私人数据上传到云端的用户而言,Accomplish 是一个值得尝试的工具。它将 AI 的理解能力与本地系统的操作能力结合在一起,是 AI Agent 在桌面端落地的一个典型代表。

“`
开源地址:https://github.com/accomplish-ai/accomplish


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/22182

(0)
上一篇 2026年2月21日 下午1:29
下一篇 2026年2月21日 下午10:42

相关推荐

  • AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

    01 通过终端控制电脑 把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。 Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python、JavaScript、Shell 等语言,直接运行在你的终端里。 通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完…

    2025年12月22日
    15000
  • 用鸿蒙打造儿童教育新体验:《声趣国旗通》背后的技术实践

    项目演示 引言:从痛点到方案 作为一名鸿蒙开发者,我一直在思考:如何用技术让儿童教育变得更有趣? 市面上的国旗学习应用大多停留在“图文展示”层面,缺乏互动性,对于低龄儿童来说认知门槛过高。 于是,我决定用 HarmonyOS 打造一款真正适合孩子的国旗学习应用——《声趣国旗通》。 这款应用的核心理念是:卡通化、超简单、强互动。在开发过程中,我深度体验了鸿蒙最…

    2026年1月13日
    14600
  • OpenClaw 2026.3.1震撼发布:90+PR合并、登顶GitHub星标榜,Claude自适应思维与飞书自动化成核心亮点

    OpenClaw 2026.3.1 正式发布:集成90余项更新,登顶GitHub历史星标榜 OpenClaw 项目于近日发布了 2026.3.1 版本。本次更新合并了 九十多个 Pull Request,涉及核心功能增强与用户体验优化。 与此同时,该项目在 GitHub 上的星标数持续快速增长,目前已达到 25.2万,超过了 Meta 的 React 项目,…

    2天前
    12600
  • OpenFang重磅开源:Rust构建的Agent操作系统,用Hands预构建能力包串联碎片化AI能力

    前不久,一篇关于 ZeroClaw 的介绍曾引发关注。该项目通过 Rust 重写,将内存占用压至 5MB,启动速度媲美系统命令,大幅超越了 OpenClaw 的 394MB 内存占用。 文章发布后,社区讨论热烈。许多用户认为,虽然 ZeroClaw 在性能上表现出色,但在功能完整性上仍有提升空间,期待一个更完备的 Agent 框架。 春节刚过,OpenFan…

    6天前
    40000
  • 解锁自动化新境界:n8n与飞书多维表格的完美融合,打造高效工作流

    解锁自动化新境界:n8n与飞书多维表格的完美融合,打造高效工作流 在利用开源工作流工具 n8n 构建自动化流程时,数据的归档与存储是关键环节。飞书多维表格为此提供了一个优秀的解决方案。它不仅可作为结构化数据的中转站,更能借助其「字段捷径」功能,与 AI 处理或后续自动化流程无缝衔接,实现效率的倍增。 值得一提的是,飞书多维表格现已支持网页端直接访问(base…

    2025年11月7日
    46300