4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

01 图片、PDF转为可编辑

Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和编辑,而非简单的背景图片。

它支持将上传的图片或PDF转换为 DrawIO (XML) 和 PPTX 格式。以下为原始图片与重建后可编辑版本的对比示例:

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

项目提供了一个Web界面,用户上传文件后可直接在嵌入的编辑器中进行实时修改。

开源地址:https://github.com/bit-datalab/edit-banana

02 小米开源具身智能大模型

小米机器人团队 Xiaomi Robotics 于今年2月开源了其阶段性研究成果:Xiaomi-Robotics-0。这是一个先进的视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在提升机器人的通用感知与实时执行能力。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

Xiaomi-Robotics-0 是一个拥有 47亿参数 的具身智能大模型。它不仅能理解复杂的视觉环境和语言指令,还能直接生成机器人的控制动作。该模型最大的特点是在保持强大泛化能力的同时,解决了大模型在机器人领域常见的推理延迟问题,实现了高性能的实时执行

开源地址:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

03 MyCodeAgent

MyCodeAgent 是一个旨在从零开始开发类似 Claude Code 代码智能体的开源项目。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目始于 Datawhale 的 Hello-Agent 开源教程,基于其骨架快速搭建了初始版本。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

初始版本虽然粗糙,但成功验证了核心工作流,并暴露出一系列工程问题,如工具失控、协议脆弱、上下文膨胀等。针对这些问题,项目进行了一系列系统性的工程化改造,核心思路是通过工具原子化、协议结构化、上下文治理、状态可观测等工程设计,将模型不确定的自由行为约束在可控范围内。

其开发理念认为,Agent 的核心价值并非追求模型的无限自由,而是通过扎实的工程设计驾驭模型能力,将其不可靠的聪明转化为稳定、可控的生产力,本质上是一个为大型语言模型的不确定性进行系统化纠偏和补漏的过程。

开源地址:https://github.com/YYHDBL/MyCodeAgent

04 开源的 AI 桌面助手

Accomplish 是一个开源的 AI 桌面助手。它将 AI 能力直接集成到本地桌面环境中,帮助用户自动化处理文件、文档和浏览器任务,同时高度重视隐私和本地控制。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

它可以根据文件内容或用户设定的规则,自动对文件进行分类、重命名、移动或清理。同时支持撰写草稿、总结长文档、重写报告或会议记录,并能与 Notion、Google Drive、Dropbox 等工具配合使用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

此外,它还能自动化执行网页调研、表格填写等浏览器工作流。用户可以将可重复的工作流程定义为 Skill 并保存,方便随时调用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该助手能够从散乱的文件和笔记中提取信息,自动生成周报或会议准备资料。对于希望利用AI打理电脑文件、自动执行重复性任务,且不希望将私人数据上传到云端的用户而言,Accomplish 是一个值得尝试的工具。它将 AI 的理解能力与本地系统的操作能力结合在一起,是 AI Agent 在桌面端落地的一个典型代表。

“`
开源地址:https://github.com/accomplish-ai/accomplish


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22182

(0)
上一篇 2026年2月21日 下午1:29
下一篇 2026年2月21日 下午10:42

相关推荐

  • 10天4万星!这个开源项目让AI生成的界面秒变大牌设计,DESIGN.md重塑UI设计未来

    10天4万星!DESIGN.md:让AI生成的界面秒变大牌设计 概述 近期,一个名为 awesome-design-md 的开源项目在开发者社区引发广泛关注。该项目在短短十天内便获得了超过四万颗星标,其核心价值在于有效解决了AI生成界面往往缺乏设计一致性与专业美感的问题。 项目理念直接而高效:它将 Nike、Claude、Notion、Figma 等众多知名…

    2026年4月14日
    86600
  • 兔展智能UniWorld-V2.5发布:中文排版与信息图生成对齐GPT-Image-2

    这两天,大家伙朋友圈是不是被GPT-Image-2 刷屏了? 文字渲染精准、高密度的信息图,复杂布局和美学UI一次到位,真实感爆棚。 连社交媒体截图、高考试卷都能近乎一比一还原,这完全颠覆了曾经以往的文生图模型,彻底解决了文字、信息图这些长期以来的痛点问题。 大家看完的第一反应,几乎都是:设计师真要失业了…… 而就在刚刚,兔展智能 甩出一张王炸:UniWor…

    2026年4月25日
    86100
  • 饺子馆老板开源AI Skill:当餐厅信息变成AI可读接口,万物皆可CLI化

    在北京海淀区杏坛路,毗邻北京邮电大学,有一家经营了近二十年的饺子馆——金谷园。它深受北邮学子喜爱,其口味常被评价为优于周边同类餐馆,并曾在大众点评上位列北京饺子馆榜首。 这家饺子馆的公众号以往保持着每年仅发布四条推送的规律。但最近,这个惯例被打破了。原因并非推出新品,而是店主将其餐厅信息封装成了一个 AI Skill(技能),并在 GitHub 上开源发布。…

    2026年4月11日
    74100
  • 蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模

    今年1月,蚂蚁灵波开源了包括高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA与LingBot-VA,以及世界模型LingBot-World在内的四款大模型。这些模型分别负责从图像中估算深度、对环境进行模拟理解,以及控制机器人的决策与动作,覆盖了感知、理解与行动环节。 然而,一个关键环节仍然缺失:如何将连续的感知数据实时构建成稳定…

    2026年4月16日
    1.1K00
  • AI编程智能体缺乏工程纪律?Superpowers框架用TDD和子智能体驱动开发强制规范

    你是否也遇到过这样的场景:让 AI 写一个“简单的”Todo 应用,它二话不说直接吐出三百行代码——没有设计文档,没有测试用例,变量命名随心所欲,更别提什么架构层面的思考了。你说“加个功能”,它把之前的代码推倒重来;你说“修个 Bug”,它只在症状上打补丁,结果又引入两个新 Bug。 这并非 AI 不够聪明,而是缺乏工程纪律的问题。人类程序员经过多年训练才学…

    2天前
    8900