DistilledPRAG:不暴露明文文档的隐私保护RAG新范式

你是否考虑过RAG流水线中的文档隐私风险?本文介绍一种新方法,旨在解决此问题。

为何“标准RAG → 云端搜索”存在隐私缺陷

标准RAG将明文文档直接输入提示词。对于企业合同、医疗记录或个人笔记等敏感数据,这种做法在设计上就暴露了信息,不可行。

参数化RAG尝试将知识“烘焙”进LoRA权重,但在实践中面临两大挑战:

  1. 运维负担与时延:每份文档都需要生成合成问答对并进行定制的LoRA微调。在线服务时需在不同适配器间切换,导致难以接受的延迟和运维开销。
  2. 表示不对齐:模型从合成问答对中学到的内容,常与标准RAG的表征和检索方式不匹配,导致在分布外输入上泛化能力较弱。

DistilledPRAG:一句话概括

通过知识蒸馏,使“学生模型”(参数化RAG)在不对齐文档结构的前提下,逼近“教师模型”(标准RAG)的推理能力,且全程不暴露明文文档。

核心方法

  • 先合成,再对齐:构建了289,079个覆盖单文档与跨文档场景的问答样本。对学生模型,使用特殊掩码标记替代原始文档;一个参数生成器将每份文档“翻译”为对应的LoRA适配器。随后通过隐藏状态和输出分布两条路径进行蒸馏,使学生模型与教师模型对齐。
  • 训练与推理同构:训练时拼接多份文档;推理时检索Top-K文档、拼接,然后生成一个统一的LoRA来生成答案。这不同于PRAG或DyPRAG为每份文档生成独立LoRA再聚合的做法。

DistilledPRAG:不暴露明文文档的隐私保护RAG新范式

Figure 1: 标准RAG、PRAG、DyPRAG与DistilledPRAG的推理范式对比。(1) 标准RAG输入明文文档和问题。(2) PRAG为每份文档生成问答对以微调LoRA适配器,并将其求和以获得文档聚合表示注入LLM。(3) DyPRAG将单个文档翻译为其LoRA并取平均以实现文档聚合。(4) DistilledPRAG将文档拼接后输入参数生成器以创建跨文档LoRA,并将文档掩码后与问题一同输入,流程更接近标准RAG。[来源]。

图1对比了四种方法的推理模式。DistilledPRAG检索并拼接多份文档后,“一次性”生成单个跨文档LoRA,其输入流更接近标准RAG。

深入解析:DistilledPRAG的三个核心组件

DistilledPRAG:不暴露明文文档的隐私保护RAG新范式

Figure 2: DistilledPRAG模型架构。1. 使用DeepSeek-V3从单文档及随机拼接的跨文档中挖掘知识。2. 训练一个参数生成器,将文档映射为学生LLM的LoRA,通过在合成数据上最小化隐藏状态和对数概率的差异,使其模仿教师RAG的推理。[来源]。

图2展示了参数生成器的工作流程:LongT5对文档编码 → 按层索引的可学习查询进行交叉注意力池化 → 自注意力编码器进一步提炼信号 → 前馈网络生成目标LoRA权重。仅训练生成器,基础LLM和文档编码器均冻结。

合成数据:默认跨文档推理

  • 来源:从2WQA训练集中随机采样30,000篇文档。生成约139,723个单文档问答对,再通过文档拼接生成约149,356个跨文档问答对,总计289,079个样本。
  • 目标:覆盖单文档事实,同时强化跨文档整合能力,使模型学会为多文档输入生成单个、整体性的LoRA表示。

参数生成器:从长文档到单个LoRA包

  • 编码器:使用LongT5将文档映射为序列表示。
  • 交叉注意力:使用按“层”索引的可学习查询对文档表示进行交叉注意力操作,得到初始隐藏状态H₀。
  • 自注意力与前馈网络:进一步编码H₀,并直接回归生成目标LoRA权重Δθ。
  • 冻结部分:仅训练生成器Gω,保持基础模型参数θ与文档编码器ψ冻结。

对齐目标:生成、隐藏状态与对数概率

  • 生成损失:在文档被掩码、仅可见问题的条件下,最小化答案的负对数似然。
  • 隐藏状态对齐:使用逐层加权(靠近输出层权重更高)的余弦损失Lcos对齐各层隐藏状态。
  • 对数概率对齐:使用令牌级的KL散度损失LKL对齐输出分布。

推理范式:与训练严格同构

使用BM25检索Top-3文档 → 按检索顺序拼接 → 用特殊掩码标记替换文档得到输入x̃ → 参数生成器产出单个LoRA权重Δθ → 使用适配后的基础模型fθ+Δθ生成答案。全程不暴露明文。

实验评估

DistilledPRAG:不暴露明文文档的隐私保护RAG新范式

Figure 3: DistilledPRAG与基线模型在2WQA、HQA、PQA和CWQ数据集上的整体F1(%)性能。加粗表示最佳性能,下划线表示次优性能。[来源]。

设置:使用各任务开发集的前300个问题计算F1分数。检索固定使用BM25(Top-3)。训练仅使用2WQA数据集。基线包括标准RAG、PRAG、DyPRAG与PISCO。

主要结果
* LLaMA-8B:DistilledPRAG平均F1为36.1,优于标准RAG(33.8),并显著领先DyPRAG(29.6)与PRAG(28.2)。在CWQ(开放域复杂查询)数据集上达到49.0,为同基础模型中最佳。
* LLaMA-1B:DistilledPRAG为28.3,优于标准RAG(24.6)、DyPRAG(18.3)与PRAG(27.0)。
* Mistral-7B:DistilledPRAG为23.1,优于标准RAG(20.6)与PISCO(21.6)。

结论:即便仅在2WQA上训练,DistilledPRAG在HQA、PQA、CWQ等分布外数据集上仍保持竞争力甚至领先。这表明,同时对齐结构(隐藏状态)和激活(输出分布)比仅依赖合成问答对进行迁移更有效。

总结与展望

DistilledPRAG的核心洞见在于将多文档证据压缩为单个跨文档LoRA,并通过“双重对齐”(隐藏状态+对数概率)使学生模型在未见明文的情况下逼近教师的决策边界。本质上,这是将检索上下文从显式的上下文窗口转移到了隐式的参数通道。

两项现实成本值得注意:计算量随掩码长度和基础模型规模增长;生成器对分布外输入的鲁棒性仍需充分验证。未来可通过两点改进进行权衡:(a) 将单一、统计初始化的掩码升级为分层、可组合的标记集合;(b) 在生成器中引入结构化稀疏和可验证的信息流约束。两者均旨在获得更好的延迟-隐私帕累托前沿。

进一步地,可将“单一LoRA”泛化为一个任务图感知的LoRA组件混合体,其中不同的证据簇激活可解释的低秩子空间;同时配套一个可审计的检索轨迹,使多跳推理在可解释性与误差控制上同步增强,避免在多步中累积失真。


参考文献: Privacy-Preserving Reasoning with Knowledge-Distilled Parametric Retrieval Augmented Generation (https://arxiv.org/pdf/2509.01088v1)



关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/13514

(0)
上一篇 2025年11月11日 下午4:20
下一篇 2025年11月12日 上午11:41

相关推荐

  • AI2050奖学金深度解析:1800万美元如何塑造AI普惠与安全的未来格局

    近日,由谷歌前CEO埃里克·施密特通过施密特科学基金会资助的「AI2050」奖学金公布了第四届入选名单,28位学者获得总额超过1800万美元的资助,持续推动人工智能向普惠、安全的方向发展。这一项目不仅为顶尖研究者提供资金支持,更构建了一个全球性的学术合作网络,旨在应对AI发展中的核心挑战。 本次奖学金聚焦三大研究方向:构建AI科学家系统、设计更安全可信的AI…

    2025年11月6日
    8700
  • AI安全攻防新纪元:从多代理信任危机到动态防御令牌的全面解析

    本周AI安全领域呈现出前所未有的复杂图景,风险与防御技术同步演进,标志着该领域正进入一个攻防深度交织的新阶段。多代理架构中大型语言模型(LLM)对同伴指令的过度信任已成为系统性隐患,学术诚信体系因隐藏提示词攻击而面临严峻挑战。与此同时,以双向对抗网络(CAVGAN)、动态防御令牌(DefensiveToken)为代表的新型技术,以及小模型在漏洞检测中的高效表…

    2025年7月18日
    10000
  • AI安全前沿周报:从多代理系统防御到Transformer缓存攻击面深度剖析

    在人工智能技术飞速发展的浪潮中,安全已成为制约其规模化应用的关键瓶颈。本周,AI安全领域涌现出多项突破性研究,从基础防御机制到新型攻击面揭示,共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性,更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制(如LlamaFirewall)在面…

    2025年10月27日
    8000
  • 12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

    近日,部分L3级自动驾驶车型已获准上路,标志着我国自动驾驶产业进入新阶段。 然而,当自动驾驶汽车在高速行驶时,若前方出现一个外观看似正常、实则为恶意生成的纹理障碍物,车辆的感知系统可能无法准确识别,导致错判或漏判,从而引发严重事故。 这类能够诱导智能系统、并可在现实世界中复现的纹理,被称为物理对抗样本(PAE, Physical Adversarial Ex…

    2025年12月28日
    10800
  • 南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

    来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性地采用「策略 – 战术 &#8…

    2025年12月25日
    8600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注