引言
随着大模型智能体的快速发展,由AI驱动的自动化科研正从概念快步走进现实。从自动发现科学问题、生成研究计划,到设计理论方法、开展实验探究,科研智能体正在全流程、根本性地重塑科学研究的范式。
然而,要让智能体真正服务于科学研究,一个基础性的技术瓶颈亟待解决:智能体如何高效地使用科技文献?
当前,科技文献的利用方式仍然是为人类用户设计的。在传统模式下,智能体必须通过繁琐的互联网搜索及网页解析才能获取相关论文,还需进一步借助复杂的阅读工具,才能从高度视觉化的论文中提取有效信息。这套基于搜索引擎与图形用户界面的基础设施,与智能体的工作方式高度不符,严重制约了其工作效果与执行效率。
换句话说,我们坐拥海量开放科技文献,却缺少一套面向智能体的“科技文献基础设施”。
如果说过去的论文仅仅是“给人看的”,那么现在,论文需要兼顾“给智能体看”这一全新需求。
一个行之有效的做法是:让论文成为CLI,使智能体可以方便地获取并加以利用。因此,智源研究院联合高校与开源社区攻坚突破,提出让论文适配CLI交互、搭建专属文献基础设施的核心思路,打通海量开放论文与智能体的衔接壁垒,为自动化科研筑牢核心基础设施底座。

DeepXiv:面向智能体的科技文献基础设施
DeepXiv是专为智能体设计的科技文献基础设施,其核心目标是将科技文献从“人类可读”升级为“智能体可用”。它并非简单地将论文网站搬到命令行,而是将科技文献本身转化为智能体可以直接消费的数据接口与技能系统,把论文搜索、渐进式阅读、热点追踪和深度调研变成可调用、可编排、可自动化的能力。
核心能力一:数据接入
DeepXiv致力于将开放科技文献转化为“智能体可消费的数据”。它提供对智能体友好的数据格式,如JSON或Markdown,使论文数据变得直接可读、可用。智能体无需再从复杂的PDF及HTML文件中“艰难扒取信息”,即可直接获取标题、作者、摘要、参考文献等元信息。
真正的挑战在于,智能体如何在有限的上下文和推理预算下,精准地利用信息。为此,DeepXiv提供了面向智能体优化的数据组织方式:
* 预览:快速获取论文核心信息,以极低成本判断相关性。
* 分块:按结构或语义切分论文内容,支持对论文局部进行精读。
* 渐进披露:在整体阅读过程中,先呈现少量信息,再按需展开,避免一次性灌入整篇长文。
这些设计旨在降低token消耗、提升检索与阅读效率,并支持复杂的多步科研任务,让智能体得以专注于真正有价值的信息。
这种设计理念直接体现在具体的调用方式中。围绕一个新研究主题,智能体最自然的动作并非一开始就通读全文,而是遵循一个高效的研究路径:
1. 搜索候选文献。
2. 快速判断是否值得投入更多上下文预算。
3. 只展开真正关键的部分。
例如,通过以下一组命令即可实现这一路径:
bash
pip install deepxiv-sdk # 安装工具包
deepxiv search "agent memory" # 搜索研究主题
deepxiv paper 2602.16493 --brief # 快速查看摘要与要点
deepxiv paper 2602.16493 --head # 查看结构与章节分布
deepxiv paper 2602.16493 --section "Experiments" # 只读实验部分
这组命令模拟了真实的研究过程:
* search:先寻找候选论文。
* --brief:预览论文核心信息,以极低成本判断论文价值。
* --head:帮助智能体掌握全文结构与章节分布。
* --section:让智能体按需读取引言、方法、实验等最有价值的部分。
其结果并非简单地“少读一点”,而是让智能体真正具备了按信息价值分配token预算的能力。DeepXiv返回的论文内容是完成解析的Markdown或JSON格式,智能体可以直接、无压力地阅读和使用。
MMA: 多模态记忆代理
标识符: arXiv: 2602.16493
发布日期: 2026-02-18
引用量: 0
资源链接: PDF | GitHub
关键词: 记忆级可靠性、时间衰减、冲突感知共识、认知审慎、视觉安慰剂效应
核心摘要:
MMA 提出了一种记忆级可靠性框架,该框架通过动态评估检索信息的来源可信度、时间衰减效应以及冲突感知网络共识,来为检索到的信息项进行动态评分,旨在缓解因记忆陈旧或不一致而导致的模型过度自信问题。该研究揭示了“视觉安慰剂效应”——即检索增强生成(RAG)智能体倾向于因基础模型中存在的潜在偏见,而对模糊的视觉输入产生无根据的确定性。在强调认知审慎的评估协议(奖励弃答、惩罚过度自信)下,MMA 在多个基准测试中展现出优越性能:在 FEVER 数据集上方差降低了 35.2%;在 LoCoMo 数据集上获得了更高的可操作准确率和更少的错误答案;在 MMA-Bench 上,其 Type-B 准确率达到 41.18%,而基线模型为 0.0%。

MMA:多模态记忆智能体
核心问题:传统的基于相似性检索的外部记忆机制,容易召回过时、低可信度或相互矛盾的记忆项,导致智能体产生过度自信的错误。
解决方案:本文提出了多模态记忆智能体(MMA)。其核心创新在于为每个检索到的记忆项动态计算一个可靠性分数。该分数综合了以下三个关键维度:
1. 来源可信度:评估记忆来源的权威性。
2. 时间衰减:降低陈旧记忆的权重。
3. 冲突感知的网络共识:识别并处理相互矛盾的记忆信息。
基于此可靠性信号,MMA能够重新加权证据,并在支持不足时主动选择“弃权”,从而做出更审慎的决策。
新基准与关键发现:
* MMA-Bench:作者构建了一个程序化生成的基准测试,用于评估信念动态,其中可控制发言者可靠性和结构化图文矛盾。
* 视觉安慰剂效应:通过该框架,研究揭示了基于检索增强生成(RAG)的智能体如何从基础模型中继承潜在的视觉偏见,即使面对模糊的视觉输入,也可能产生无根据的确定性。
实验结果:
* 在FEVER数据集上:MMA在保持基线准确率的同时,将方差降低了35.2%,并提升了选择性效用。
* 在LoCoMo数据集上:面向安全的配置提高了可操作的准确性,并减少了错误答案。
* 在MMA-Bench上:在视觉模式下,MMA的Type-B准确率达到41.18%,而基线方法在相同协议下崩溃至0.0%。
代码:https://github.com/AIGeeksGroup/MMA
扩展与集成:构建统一的智能体文献接入层
全面覆盖与持续更新:DeepXiv已实现对ArXiv全量数据的覆盖,并保持每日增量更新。
快速扩展数据源:目前,DeepXiv正在快速扩展至更多开放文献源,包括:
* PubMed Central (PMC)
* ACM Digital Library
* 各类预印本平台(如bioRxiv, medRxiv, ChemRxiv)
* Semantic Scholar
最终目标是建立一个覆盖超过2亿篇开放科技文献的统一智能体接入层。
统一的服务范式:这种扩展不仅仅是数据的汇集,更重要的是延续并推广面向智能体的统一服务范式。这意味着,无论数据来自ArXiv、PMC还是其他开放获取(OA)数据源,智能体都将通过一套一致、可复用、可自动化编排的接口进行访问和利用。
示例:PMC文献访问
智能体可以通过类似的命令直接获取和处理PMC文献:bash
deepxiv pmc PMC544940 --head # 查看全文结构
deepxiv pmc PMC544940 # 获取全文JSON数据
这确保了智能体的文献处理流程在不同数据源间具有高度的可迁移性和一致性。
一站式能力集成:超越检索,赋能行动
DeepXiv的目标不仅是帮助智能体“找到”文献,更是帮助它们“利用”文献来完成任务。其服务集成了检索、解析、摘要、问答等多种能力,旨在成为智能体进行科研工作的核心基础设施。
四、核心能力:从检索到任务执行
DeepXiv 不仅是一个论文搜索引擎,更是一个为智能体设计的科研任务执行平台。它提供可配置的搜索模式,并在此基础上构建了多层次的能力集,旨在将文献从“人类可读”转化为“智能体可用”。
1. 核心技能
* 深度问答与信息提取:直接针对文献内容进行理解与问答,例如:“论文的核心贡献是什么?”或“其实验设置和对比基线是什么?”,实现对文献的深入解析。
* 热点追踪:动态追踪每日、每周或每月内特定研究主题下的热点论文。
* 深度调研:针对复杂研究问题展开系统性探索,例如:“过去三年关于 Agent Memory 的代表性工作有哪些?”或“多模态检索增强在金融场景中的公开基准及数据集有哪些?”
智能体可通过其内置的技能接口或命令行帮助机制,感知并灵活调用这些持续扩展的能力。
2. 任务驱动的使用范式
DeepXiv 的核心特点是“不仅是检索,更是围绕任务调用能力”。这在实际工作流中体现得尤为明显。
- 示例一:热点追踪与周报生成
一个典型的热点追踪流程可以简化为以下命令序列:
deepxiv trending --days 7 --limit 30 --json # 获取近期热点论文池
deepxiv paper 2603.28767 --brief # 快速预览单篇论文要点
deepxiv paper 2603.28767 --popularity # 查看其在社交媒体的传播热度
通过此链路,智能体可继续完成摘要、筛选、排序并最终生成研究周报。 - 示例二:快速切入新研究主题
若要系统了解一个新领域,流程同样直接:
deepxiv search "agentic memory" --limit 20 # 搜索主题相关论文
deepxiv paper 2506.07398 --head # 查看全文章节结构
deepxiv paper 2506.07398 --section Experiments # 精读关键实验章节
智能体可先定位候选论文,再按需深入阅读关键部分。此外,还能无缝衔接其他信息源:
deepxiv wsearch "agent memory" # 调用互联网搜索进行补充
deepxiv sc 161990727 # 获取 Semantic Scholar 论文元数据
DeepXiv 提供的并非孤立命令,而是一套可被智能体连续调用的科研任务能力集。
3. 高层任务封装:深度调研智能体
为简化流程,DeepXiv 内置了深度调研智能体。它能将搜索、筛选、渐进式阅读、信息提取与归纳整理自动化串联,直接响应用户的高层任务指令,例如:
* “最近关于 Agent Memory 的代表性工作有哪些?”
* “过去一年有哪些值得关注的多模态检索增强论文?”
这使得 DeepXiv 不仅能提供底层工具,更能直接承接并完成部分高层科研任务。开发者也可将 DeepXiv 的能力封装成技能(Skills),注入任意智能体框架,快速启动研究工作。pip install "deepxiv-sdk[all]" # 安装完整工具包
deepxiv agent config # 配置API密钥
deepxiv agent query "What are the latest papers about agent memory?" --verbose # 启动深度调研
五、丰富的接入形态
DeepXiv 提供多种接入方式,以适应从智能体到开发者的全场景需求。
- 命令行接口(CLI):核心形态。智能体可通过命令行无缝调用全部文献能力,并通过脚本编排实现复杂工作流。
- 模型上下文协议(MCP):支持嵌入各类智能体开发框架,使“科技文献利用”成为智能体的标准工具。
- Python SDK:为需要深度定制工作流的开发者提供灵活集成方案,便于构建高度定制化的科研智能体。
基于 DeepXiv,开发者能够快速封装面向具体科研任务的定制化技能,例如:
* 每周自动追踪特定方向的新论文。
* 自动筛选附带开源代码的研究工作。
* 批量抽取实验设置与结果。
* 生成特定主题的基准(Baseline)对比表格。
* 持续维护某个研究方向的动态知识库。
这意味着,DeepXiv 不仅是一个“可调用的工具”,更是在为日常科研工作流提供一层可快速复用、可持续扩展的能力底座。
实战演示:整理近期 Agent Memory 论文信息
下面通过一个典型的高频科研需求,展示 DeepXiv 如何在实际任务中串联各项能力。
任务描述:整理最近一个月内关于 Agent Memory 的论文,总结其使用的数据集、效果以及是否开源。
传统流程:需要在多个网页和PDF间切换、手动复制粘贴、人工整理成表格,耗时耗力。
DeepXiv 工作流:该任务可被拆解为一组自然的自动化动作。
第一步:按主题与时间范围搜索候选论文
智能体会执行多个近义搜索,以最大化召回相关论文:deepxiv search "agent memory" --date-from 2026-03-02 --limit 50 --format json
deepxiv search "agentic memory" --date-from 2026-03-02 --limit 50 --format json
deepxiv search "memory agents long-horizon" --date-from 2026-03-02 --limit 50 --format json
此步骤能快速找到如 AdaMem、All-Mem 等高相关论文,并初步识别出仅关键词相关但主题不符的噪声结果。
第二步:使用 brief 模式进行低成本筛选
通过快速预览论文要点,智能体可以高效筛除低相关性论文,缩小精读范围。
第三步:预览结构,定点精读
通过 --brief 命令快速预览后,智能体已筛选出核心候选论文。下一步并非通读全文,而是先查看论文结构,再定点读取关键章节(如实验部分)。
bash
deepxiv paper 2603.16496 --head
deepxiv paper 2603.16496 --section Experiments
deepxiv paper 2603.19595 --head
deepxiv paper 2603.19595 --section Experiments
deepxiv paper 2603.18429 --head
deepxiv paper 2603.18429 --section "Anchored State Memory"
这一流程模拟了人类研究者的高效阅读习惯:先概览章节布局,确认实验、评估或结果部分的位置,再针对性地展开精读,必要时补充阅读附录中的数据集或实验设置详情。

通过定点读取实验章节,智能体能够直接提取可比较的核心结果与指标,例如:
- AdaMem 在 LoCoMo 和 PERSONAMEM 数据集上评测,取得 LoCoMo F1 最高 44.65,PERSONAMEM 平均准确率 63.25%。
- AndroTMem 提出了 AndroTMem-Bench,并比较了原始历史记录、摘要和锚定状态记忆(ASM)三种历史表示方法。例如,Gemini-3-Flash 模型在 ASM 下取得了 AMS 59.03 / TCR 65.05 的成绩。
- Memex (RL) 在改造后的 ALFWorld 环境中,将任务成功率从 24.22% 提升至 85.61%。
- Trajectory-Informed Memory Generation 在 AppWorld 上,将 held-out 场景的 SGC 分数从 50.0 提升至 64.3。
- LMEB 作为一个基准测试,汇总了 22 个数据集和 193 个零样本检索任务。

DeepXiv 在此环节的价值,在于支持智能体以“先粗筛、再结构化定位、最后定点精读”的渐进式工作流来消费文献,而非简单地提供全文内容。
第四步:自动生成结构化基线表格

当论文、数据集、指标、分数和开源状态等信息被提取后,最后一步是将其整理为结构化的交付物。
在上述演示任务中,智能体最终将结果输出为一份 Markdown 表格,包含以下列:论文标题与 arXiv 链接、是否开源及代码地址、使用的基准测试/数据集、评价指标、核心结果与可比分数、对论文定位的简短备注。
这一步至关重要,它意味着 DeepXiv 的服务产出并非一次性问答,而是可以持续复用和迭代的研究资产。这份结构化表格可以直接用于撰写调研文档、制作演示文稿、编写周报,或作为后续项目研究的基线起点。
总结:从“人类可读”到“智能体可用”
这个演示案例的意义在于,它并非“炫技”,而是还原了一个日常且真实的科研需求场景:快速了解某个方向的最新工作、所用数据集、效果对比及开源情况。
DeepXiv 首次以真正贴合智能体工作流的方式满足了这一需求:
1. 结构化搜索:无需解析网页。
2. 低成本预览:避免通读全文。
3. 渐进式阅读:仅展开关键章节。
4. 任务导向提取:输出面向表格和下游任务,而非停留在自然语言总结。
5. 可复用输出:结果可保存、可扩展,成为研究过程中的中间产物。
这正是 DeepXiv 旨在解决的核心问题:它不仅将论文“搬上命令行”,更是将科技文献转化为智能体可以主动调用、筛选、分析并交付的“一等对象”。
如果说传统论文网站服务于“人类点开页面自行阅读”,那么 DeepXiv 则致力于服务“智能体围绕科研任务,主动调用文献能力并完成交付”。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29111

