文档处理
-
本周GitHub开源项目精选:从文档信息抽取到AI工作流框架,6个AI工具助你提升开发效率
01 谷歌开源的文档信息抽取神器 谷歌开源了一个名为 LangExtract 的 Python 库,该项目已获得近 3 万 Star。它专门利用大语言模型从非结构化文本中提取结构化信息,例如从临床病历、报告等文档中自动识别和整理关键数据,并能精准定位每条信息在原文中的位置。 其核心特点包括:精确的源定位、针对长文档的优化、以及支持交互式可视化。它能生成独立的…
-
超越基础RAG:构建面向学术论文的智能检索系统实战
在AI工程实践中,你很快会意识到:并不存在一张可以完全照搬的“通用蓝图”。 对于检索增强生成(RAG)中的基础检索(“R”),标准流程包括文档分块、查询语义搜索、结果重排等。这套流程已广为人知。 但随着系统深入应用,一个问题会浮现:如果一个系统对一篇文档的理解仅限于几个零散的文本块,我们如何能称其为“智能”? 那么,如何确保系统获得足够的信息,从而做出“聪明…
-
本周GitHub精选:8个AI开源项目,从智能体UI到文档处理,全面提升开发效率
Skills 开源合集 该项目由 Anthropic 发布并维护,在 GitHub 上已获得 28K Star。它汇集了多种可复用的“Skills”(技能包)。 Skills 本质上是将复杂的提示词、脚本、模板和资源打包成标准化的能力单元。在向 Claude 分派任务时,它可以动态加载并使用相关的 Skill。 该仓库提供了多种类型的 Skill 示例,涵盖…
