01 图片、PDF转为可编辑
Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。

该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和编辑,而非简单的背景图片。
它支持将上传的图片或PDF转换为 DrawIO (XML) 和 PPTX 格式。以下为原始图片与重建后可编辑版本的对比示例:
原始图片:

转换后的可编辑版本:

原始图片:

转换后的可编辑版本:

原始图片:

转换后的可编辑版本:

原始图片:

转换后的可编辑版本:

项目提供了一个Web界面,用户上传文件后可直接在嵌入的编辑器中进行实时修改。
开源地址:https://github.com/bit-datalab/edit-banana
02 小米开源具身智能大模型
小米机器人团队 Xiaomi Robotics 于今年2月开源了其阶段性研究成果:Xiaomi-Robotics-0。这是一个先进的视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在提升机器人的通用感知与实时执行能力。

Xiaomi-Robotics-0 是一个拥有 47亿参数 的具身智能大模型。它不仅能理解复杂的视觉环境和语言指令,还能直接生成机器人的控制动作。该模型最大的特点是在保持强大泛化能力的同时,解决了大模型在机器人领域常见的推理延迟问题,实现了高性能的实时执行。
开源地址:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
03 MyCodeAgent
MyCodeAgent 是一个旨在从零开始开发类似 Claude Code 代码智能体的开源项目。





该项目始于 Datawhale 的 Hello-Agent 开源教程,基于其骨架快速搭建了初始版本。

初始版本虽然粗糙,但成功验证了核心工作流,并暴露出一系列工程问题,如工具失控、协议脆弱、上下文膨胀等。针对这些问题,项目进行了一系列系统性的工程化改造,核心思路是通过工具原子化、协议结构化、上下文治理、状态可观测等工程设计,将模型不确定的自由行为约束在可控范围内。
其开发理念认为,Agent 的核心价值并非追求模型的无限自由,而是通过扎实的工程设计驾驭模型能力,将其不可靠的聪明转化为稳定、可控的生产力,本质上是一个为大型语言模型的不确定性进行系统化纠偏和补漏的过程。
开源地址:https://github.com/YYHDBL/MyCodeAgent
04 开源的 AI 桌面助手
Accomplish 是一个开源的 AI 桌面助手。它将 AI 能力直接集成到本地桌面环境中,帮助用户自动化处理文件、文档和浏览器任务,同时高度重视隐私和本地控制。

它可以根据文件内容或用户设定的规则,自动对文件进行分类、重命名、移动或清理。同时支持撰写草稿、总结长文档、重写报告或会议记录,并能与 Notion、Google Drive、Dropbox 等工具配合使用。

此外,它还能自动化执行网页调研、表格填写等浏览器工作流。用户可以将可重复的工作流程定义为 Skill 并保存,方便随时调用。

该助手能够从散乱的文件和笔记中提取信息,自动生成周报或会议准备资料。对于希望利用AI打理电脑文件、自动执行重复性任务,且不希望将私人数据上传到云端的用户而言,Accomplish 是一个值得尝试的工具。它将 AI 的理解能力与本地系统的操作能力结合在一起,是 AI Agent 在桌面端落地的一个典型代表。
“`
开源地址:https://github.com/accomplish-ai/accomplish
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22182
