AI论文综述工具OpenScholar:终结假引用,引文准确度比肩人类专家
AI辅助论文写作已不新鲜,但长期困扰学术界的假引用问题始终存在。使用大模型生成的文献综述看似规范,但核查参考文献时,常会发现论文、期刊甚至作者均为捏造。
如今,这一问题有望得到解决。《自然》杂志新发表的一篇研究显示,艾伦人工智能研究所(AI2)与华盛顿大学联合开源了一个名为OpenScholar的AI系统,该系统在撰写文献综述时能有效杜绝虚构引用。

该系统背靠一个包含4500万篇科学论文的庞大数据库,将GPT-4o等模型高达78%-90%的虚假引用率大幅降低。
那么,在普遍存在“幻觉”问题的背景下,OpenScholar为何能做到不编造?
自我反馈推理机制
大型语言模型(LLM)的底层逻辑是基于概率预测下一个词。当被问及生僻的学术问题时,为了维持回答的连贯性和“无所不知”的形象,模型可能会根据训练语料中的作者、期刊、标题等关键词,拼凑出一篇看似真实的“幻觉”论文。
此外,通用AI缺乏事实锚点,容易混淆不同来源的知识。例如,当被问及超导材料时,它可能虚构出一篇《张教授与李教授关于超导材料的巅峰对话》。这种因训练数据截断和缺乏真实文献验证机制导致的假引用,严重影响了学术可靠性。

OpenScholar采用了不同的路径。它不再单纯预测下一个词,而是接入了一个名为ScholarStore的大型数据库。这是目前公开的最大科学领域段落索引,完全开源可下载,支持本地部署和扩展。
该数据库真实存储了4500万篇论文的全文和摘要。通过检索增强生成(RAG)技术,系统确保每个知识点都关联一篇真实存在的论文。
当用户提出一个科研问题时,OpenScholar首先在其包含2.37亿个向量嵌入的数据库中进行深度检索,找出所有相关论文片段。生成初稿后,系统会进行自我审查,生成如“此处缺少讨论”、“此处引文不准确”、“需要补充最新进展”等反馈,然后基于这些反馈再次检索和修改稿件。通过 “搜索、生成、自我审查、再搜索、再修正” 的闭环流程,反复验证输出内容是否有真实的论文支撑。
这一机制显著降低了“幻觉”现象,提高了内容的覆盖面和引文精度。整个流程生成的高质量合成数据还可用于反哺模型训练。

性能表现
如果仅仅是检索准确,OpenScholar可能只是一个高级搜索引擎。但其真正强大之处在于知识合成的深度,已开始与人类专家正面竞争。
研究团队构建了一个名为Scholar QABench的测试集,涵盖计算机科学、物理、生物医药等高度依赖逻辑的领域,包含3000个问题和250个长篇专家答案。
在自动评估中,参数量仅为80亿的OpenScholar-8B模型,在答案正确性上比GPT-4o高出5%,比专业的PaperQA2高出7%,其引文准确度与人类专家持平。

团队还进行了一项“人机大战”双盲实验。他们将AI生成的答案与博士、研究员等人类专家撰写的答案混合,交由另一组顶尖科学家进行盲审打分。
16位专家两两对比了108份学术答案。结果显示,OpenScholar-8B的回答在51%的情况下优于人类研究者。而升级组合版OpenScholar-GPT4o的胜率更是达到70%,普通GPT-4o的胜率仅为32%。
评审专家普遍认为,OpenScholar的优势在于信息覆盖更全面、结构更清晰、逻辑连贯性更强,因而具有更高的实用价值。
作者团队
本研究的第一作者Akari Asai是艾伦人工智能研究所的研究科学家,将于2026年秋季起担任卡内基梅隆大学助理教授。她本科毕业于东京大学电气工程与计算机科学专业,后在华盛顿大学获得博士学位,研究方向聚焦于自然语言处理和机器学习,特别是大型语言模型。

Jacqueline He目前是华盛顿大学自然语言处理专业的博士生,本科毕业于普林斯顿大学,曾是普林斯顿自然语言处理小组成员,主要导师是陈丹琦。在攻读研究生之前,她曾担任Meta的软件工程师。
Rulin Shao本科毕业于西安交通大学,获数学学士学位,后在卡内基梅隆大学获得机器学习硕士学位,现为华盛顿大学博士生,同时兼任Meta的访问研究员。

团队其他成员来自伊利诺伊大学厄巴纳-香槟分校、卡内基梅隆大学、Meta、北卡罗来纳大学教堂山分校、斯坦福大学等知名高校和机构。
论文地址:https://arxiv.org/abs/2411.14199

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20677
