4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

01 图片、PDF转为可编辑

Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和编辑,而非简单的背景图片。

它支持将上传的图片或PDF转换为 DrawIO (XML) 和 PPTX 格式。以下为原始图片与重建后可编辑版本的对比示例:

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

原始图片:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

转换后的可编辑版本:

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

项目提供了一个Web界面,用户上传文件后可直接在嵌入的编辑器中进行实时修改。

开源地址:https://github.com/bit-datalab/edit-banana

02 小米开源具身智能大模型

小米机器人团队 Xiaomi Robotics 于今年2月开源了其阶段性研究成果:Xiaomi-Robotics-0。这是一个先进的视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在提升机器人的通用感知与实时执行能力。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

Xiaomi-Robotics-0 是一个拥有 47亿参数 的具身智能大模型。它不仅能理解复杂的视觉环境和语言指令,还能直接生成机器人的控制动作。该模型最大的特点是在保持强大泛化能力的同时,解决了大模型在机器人领域常见的推理延迟问题,实现了高性能的实时执行

开源地址:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

03 MyCodeAgent

MyCodeAgent 是一个旨在从零开始开发类似 Claude Code 代码智能体的开源项目。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该项目始于 Datawhale 的 Hello-Agent 开源教程,基于其骨架快速搭建了初始版本。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

初始版本虽然粗糙,但成功验证了核心工作流,并暴露出一系列工程问题,如工具失控、协议脆弱、上下文膨胀等。针对这些问题,项目进行了一系列系统性的工程化改造,核心思路是通过工具原子化、协议结构化、上下文治理、状态可观测等工程设计,将模型不确定的自由行为约束在可控范围内。

其开发理念认为,Agent 的核心价值并非追求模型的无限自由,而是通过扎实的工程设计驾驭模型能力,将其不可靠的聪明转化为稳定、可控的生产力,本质上是一个为大型语言模型的不确定性进行系统化纠偏和补漏的过程。

开源地址:https://github.com/YYHDBL/MyCodeAgent

04 开源的 AI 桌面助手

Accomplish 是一个开源的 AI 桌面助手。它将 AI 能力直接集成到本地桌面环境中,帮助用户自动化处理文件、文档和浏览器任务,同时高度重视隐私和本地控制。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

它可以根据文件内容或用户设定的规则,自动对文件进行分类、重命名、移动或清理。同时支持撰写草稿、总结长文档、重写报告或会议记录,并能与 Notion、Google Drive、Dropbox 等工具配合使用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

此外,它还能自动化执行网页调研、表格填写等浏览器工作流。用户可以将可重复的工作流程定义为 Skill 并保存,方便随时调用。

4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

该助手能够从散乱的文件和笔记中提取信息,自动生成周报或会议准备资料。对于希望利用AI打理电脑文件、自动执行重复性任务,且不希望将私人数据上传到云端的用户而言,Accomplish 是一个值得尝试的工具。它将 AI 的理解能力与本地系统的操作能力结合在一起,是 AI Agent 在桌面端落地的一个典型代表。

“`
开源地址:https://github.com/accomplish-ai/accomplish


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22182

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • 揭秘国内首个真人级AI导师:自研原生教育框架如何实现92.4%完课率

    第一次见到「爱学」前,王佳佳(化名)害怕和老师互动。这个来自安徽阜阳的初三女生,性格内向,在课堂上几乎从不举手。题不会,不敢问,宁愿空着;一被老师点名,就紧张到大脑一片空白。久而久之,数学和英语成了她最不愿面对的两门课。 直到有一天,她开始反复和一个「不会不耐烦」的对象对话。一句没听懂,就一直追问,直到彻底弄清楚。对方有表情,会根据她的反应实时调整讲解节奏,…

    2025年12月29日
    11900
  • Hey Tuya:AI生活助手如何通过软硬件协同重塑智能家居体验

    “豆包手机”的热度尚未消退,行业又迎来了一个“操作系统级”AI智能体。它正从手机、电脑屏幕中“溢出”,走向全屋、全场景的智能生活。 那么,这种充满科技感的生活,究竟谁能率先体验? 想象一下:清晨醒来,窗帘自动为你缓缓拉开,音响播放着你喜欢的播客,咖啡机已开始研磨新鲜的豆子。你无需逐一唤醒或调试家中的智能设备,只需一句话,一个隐形的智能“管家”便能心领神会,替…

    2025年12月31日
    12300
  • 4个GitHub神级开源项目:让AI助手变身营销专家、PPT大师、内容创作全家桶和文档处理高手

    01 营销人的 Claude Code 技能库 这是一个专门为营销人员准备的技能包,已在 GitHub 上获得 7.5k 星标。作者 Corey Haines 是一位营销专家,他称这是其发布过的最有价值且完全免费的工具。 该库包含了 26 个与营销相关的技能,覆盖转化率优化、文案写作、SEO、数据分析和增长黑客等领域。例如:* page-cro 技能:可指导…

    4天前
    8900
  • 视觉感知与主动智能:AI耳机如何重塑人机交互范式

    Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件轮廓正逐渐清晰。供应链信息显示,这款产品并未配备屏幕,形态更接近可穿戴设备:体积与 iPod Shuffle 相仿,便于放入口袋或随身佩戴;内置麦克风与摄像头,可持续感知用户所处的真实环境,并主动提供建议。 在“无屏、主动式 AI”这条赛道上,中国公司已率先迈出步伐。 12 月底,光帆科技…

    2026年1月4日
    12200
  • AI深度研究赋能春节规划:美团LongCat大模型如何用本地生活数据解决实际难题

    春节将至,科技圈也弥漫着“年味”。AI领域动态频出:Kimi 2.5与Step 3.5 Flash刚刚发布,DeepSeek V4、GPT-5.3、Claude Sonnet 5、Qwen 3.5、GLM-5等模型也蓄势待发,技术迭代的速度令人目不暇接。 各大厂商在春节期间更是动作频频,红包活动、机器人亮相春晚,无不展现出志在必得的竞争态势。然而,密集的更新…

    2026年2月11日
    10800