4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

01 图片、PDF转为可编辑

Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和编辑,而非简单的背景图片。

它支持将上传的图片或PDF转换为 DrawIO (XML) 和 PPTX 格式。以下为原始图片与重建后可编辑版本的对比示例:

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

项目提供了一个Web界面,用户上传文件后可直接在嵌入的编辑器中进行实时修改。

开源地址:https://github.com/bit-datalab/edit-banana

02 小米开源具身智能大模型

小米机器人团队 Xiaomi Robotics 于今年2月开源了其阶段性研究成果:Xiaomi-Robotics-0。这是一个先进的视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在提升机器人的通用感知与实时执行能力。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

Xiaomi-Robotics-0 是一个拥有 47亿参数 的具身智能大模型。它不仅能理解复杂的视觉环境和语言指令,还能直接生成机器人的控制动作。该模型最大的特点是在保持强大泛化能力的同时,解决了大模型在机器人领域常见的推理延迟问题,实现了高性能的实时执行

开源地址:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

03 MyCodeAgent

MyCodeAgent 是一个旨在从零开始开发类似 Claude Code 代码智能体的开源项目。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目始于 Datawhale 的 Hello-Agent 开源教程,基于其骨架快速搭建了初始版本。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

初始版本虽然粗糙,但成功验证了核心工作流,并暴露出一系列工程问题,如工具失控、协议脆弱、上下文膨胀等。针对这些问题,项目进行了一系列系统性的工程化改造,核心思路是通过工具原子化、协议结构化、上下文治理、状态可观测等工程设计,将模型不确定的自由行为约束在可控范围内。

其开发理念认为,Agent 的核心价值并非追求模型的无限自由,而是通过扎实的工程设计驾驭模型能力,将其不可靠的聪明转化为稳定、可控的生产力,本质上是一个为大型语言模型的不确定性进行系统化纠偏和补漏的过程。

开源地址:https://github.com/YYHDBL/MyCodeAgent

04 开源的 AI 桌面助手

Accomplish 是一个开源的 AI 桌面助手。它将 AI 能力直接集成到本地桌面环境中,帮助用户自动化处理文件、文档和浏览器任务,同时高度重视隐私和本地控制。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

它可以根据文件内容或用户设定的规则,自动对文件进行分类、重命名、移动或清理。同时支持撰写草稿、总结长文档、重写报告或会议记录,并能与 Notion、Google Drive、Dropbox 等工具配合使用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

此外,它还能自动化执行网页调研、表格填写等浏览器工作流。用户可以将可重复的工作流程定义为 Skill 并保存,方便随时调用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该助手能够从散乱的文件和笔记中提取信息,自动生成周报或会议准备资料。对于希望利用AI打理电脑文件、自动执行重复性任务,且不希望将私人数据上传到云端的用户而言,Accomplish 是一个值得尝试的工具。它将 AI 的理解能力与本地系统的操作能力结合在一起,是 AI Agent 在桌面端落地的一个典型代表。

“`
开源地址:https://github.com/accomplish-ai/accomplish


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22182

(0)
上一篇 2026年2月21日 下午1:29
下一篇 2026年2月21日 下午10:42

相关推荐

  • 华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先

    华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先 7B量级模型,向来是端侧部署与个人开发者的心头好。其轻量化特性让它能灵活适配各类终端场景,而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。 近日,华为重磅推出开源新玩家openPangu-VL-7B,直接瞄准这一核心场景精准发力。 作为昇腾原生的模型,ope…

    2026年1月5日
    26400
  • OpenClaw v2026.3.7-beta.1重磅发布:史上最密集更新,ContextEngine插件接口开启AI智能体开发新纪元

    【导读】 OpenClaw 发布了 v2026.3.7-beta.1 版本,这是该项目历史上更新最密集的一次,共包含 89 项提交和超过 200 项 Bug 修复。本次更新的核心是引入了全新的 ContextEngine 插件接口,使上下文管理策略能够以“即插即拔”的方式自定义,而无需修改核心代码。对于 AI 智能体开发者而言,此次更新值得重点关注。 近期,…

    2026年3月9日
    56500
  • 腾讯QClaw微信大升级:小程序接入、远程办公、灵感广场,实测AI助手如何解放打工人

    腾讯旗下AI助手产品 QClaw 近日完成了一次重要更新,核心围绕其微信互联能力展开。本次升级将微信入口转换为小程序形态,并增强了文件处理与技能调用功能。 我们第一时间获得了内测资格,并对升级后的功能进行了实际体验。首要测试的便是远程文件管理能力。通过微信向QClaw发送指令,可以成功清理并归类电脑桌面上的散乱文件。 此外,我们还尝试了在微信端让QClaw创…

    2026年3月18日
    50300
  • Claw AI Lab:告别单打独斗,用AI智能体协同开启高效科研新范式

    Claw AI Lab 团队 你是否仍在独自进行科研工作? 科研中最困难的,往往并非问题本身,而是将一个想法从文献调研、实验设计推进到论文写作的全过程,只能依靠个人缓慢推进。 独自研究时,方向偏离无人提醒,遇到歧义无人讨论,结果有误只能反复试错。许多所谓的“自动化科研”工具,也只是将这一过程封装成一条无人参与的流水线——人虽然被移除了,但根本问题并未改变。 …

    3天前
    18900
  • 三大前沿AI智能体开源项目深度解析:从工作流编排到交易决策与视频创作

    AI 智能体平台 Astron Agent 是科大讯飞开源的一款实用性较高的 AI 智能体平台。 与 Coze、n8n 等平台类似,Astron Agent 集成了 AI 工作流编排、模型管理、工具集成、RPA 自动化和团队协作功能,但整体设计更为轻量。 它继承了科大讯飞 Astron 平台的核心技术,不仅支持智能体开发的全流程,还创新性地集成了智能 RPA…

    2025年11月20日
    27200