DistilledPRAG：不暴露明文文档的隐私保护RAG新范式

你是否考虑过RAG流水线中的文档隐私风险？本文介绍一种新方法，旨在解决此问题。

为何“标准RAG → 云端搜索”存在隐私缺陷

标准RAG将明文文档直接输入提示词。对于企业合同、医疗记录或个人笔记等敏感数据，这种做法在设计上就暴露了信息，不可行。

参数化RAG尝试将知识“烘焙”进LoRA权重，但在实践中面临两大挑战：

运维负担与时延：每份文档都需要生成合成问答对并进行定制的LoRA微调。在线服务时需在不同适配器间切换，导致难以接受的延迟和运维开销。
表示不对齐：模型从合成问答对中学到的内容，常与标准RAG的表征和检索方式不匹配，导致在分布外输入上泛化能力较弱。

DistilledPRAG：一句话概括

通过知识蒸馏，使“学生模型”（参数化RAG）在不对齐文档结构的前提下，逼近“教师模型”（标准RAG）的推理能力，且全程不暴露明文文档。

核心方法

先合成，再对齐：构建了289,079个覆盖单文档与跨文档场景的问答样本。对学生模型，使用特殊掩码标记替代原始文档；一个参数生成器将每份文档“翻译”为对应的LoRA适配器。随后通过隐藏状态和输出分布两条路径进行蒸馏，使学生模型与教师模型对齐。
训练与推理同构：训练时拼接多份文档；推理时检索Top-K文档、拼接，然后生成一个统一的LoRA来生成答案。这不同于PRAG或DyPRAG为每份文档生成独立LoRA再聚合的做法。

Figure 1: 标准RAG、PRAG、DyPRAG与DistilledPRAG的推理范式对比。(1) 标准RAG输入明文文档和问题。(2) PRAG为每份文档生成问答对以微调LoRA适配器，并将其求和以获得文档聚合表示注入LLM。(3) DyPRAG将单个文档翻译为其LoRA并取平均以实现文档聚合。(4) DistilledPRAG将文档拼接后输入参数生成器以创建跨文档LoRA，并将文档掩码后与问题一同输入，流程更接近标准RAG。[来源]。

图1对比了四种方法的推理模式。DistilledPRAG检索并拼接多份文档后，“一次性”生成单个跨文档LoRA，其输入流更接近标准RAG。

深入解析：DistilledPRAG的三个核心组件

Figure 2: DistilledPRAG模型架构。1. 使用DeepSeek-V3从单文档及随机拼接的跨文档中挖掘知识。2. 训练一个参数生成器，将文档映射为学生LLM的LoRA，通过在合成数据上最小化隐藏状态和对数概率的差异，使其模仿教师RAG的推理。[来源]。

图2展示了参数生成器的工作流程：LongT5对文档编码 → 按层索引的可学习查询进行交叉注意力池化 → 自注意力编码器进一步提炼信号 → 前馈网络生成目标LoRA权重。仅训练生成器，基础LLM和文档编码器均冻结。

合成数据：默认跨文档推理

来源：从2WQA训练集中随机采样30,000篇文档。生成约139,723个单文档问答对，再通过文档拼接生成约149,356个跨文档问答对，总计289,079个样本。
目标：覆盖单文档事实，同时强化跨文档整合能力，使模型学会为多文档输入生成单个、整体性的LoRA表示。

参数生成器：从长文档到单个LoRA包

编码器：使用LongT5将文档映射为序列表示。
交叉注意力：使用按“层”索引的可学习查询对文档表示进行交叉注意力操作，得到初始隐藏状态H₀。
自注意力与前馈网络：进一步编码H₀，并直接回归生成目标LoRA权重Δθ。
冻结部分：仅训练生成器Gω，保持基础模型参数θ与文档编码器ψ冻结。

对齐目标：生成、隐藏状态与对数概率

生成损失：在文档被掩码、仅可见问题的条件下，最小化答案的负对数似然。
隐藏状态对齐：使用逐层加权（靠近输出层权重更高）的余弦损失Lcos对齐各层隐藏状态。
对数概率对齐：使用令牌级的KL散度损失LKL对齐输出分布。

推理范式：与训练严格同构

使用BM25检索Top-3文档 → 按检索顺序拼接 → 用特殊掩码标记替换文档得到输入x̃ → 参数生成器产出单个LoRA权重Δθ → 使用适配后的基础模型fθ+Δθ生成答案。全程不暴露明文。

实验评估

Figure 3: DistilledPRAG与基线模型在2WQA、HQA、PQA和CWQ数据集上的整体F1(%)性能。加粗表示最佳性能，下划线表示次优性能。[来源]。

设置：使用各任务开发集的前300个问题计算F1分数。检索固定使用BM25（Top-3）。训练仅使用2WQA数据集。基线包括标准RAG、PRAG、DyPRAG与PISCO。

主要结果：
* LLaMA-8B：DistilledPRAG平均F1为36.1，优于标准RAG（33.8），并显著领先DyPRAG（29.6）与PRAG（28.2）。在CWQ（开放域复杂查询）数据集上达到49.0，为同基础模型中最佳。
* LLaMA-1B：DistilledPRAG为28.3，优于标准RAG（24.6）、DyPRAG（18.3）与PRAG（27.0）。
* Mistral-7B：DistilledPRAG为23.1，优于标准RAG（20.6）与PISCO（21.6）。

结论：即便仅在2WQA上训练，DistilledPRAG在HQA、PQA、CWQ等分布外数据集上仍保持竞争力甚至领先。这表明，同时对齐结构（隐藏状态）和激活（输出分布）比仅依赖合成问答对进行迁移更有效。

总结与展望

DistilledPRAG的核心洞见在于将多文档证据压缩为单个跨文档LoRA，并通过“双重对齐”（隐藏状态+对数概率）使学生模型在未见明文的情况下逼近教师的决策边界。本质上，这是将检索上下文从显式的上下文窗口转移到了隐式的参数通道。

两项现实成本值得注意：计算量随掩码长度和基础模型规模增长；生成器对分布外输入的鲁棒性仍需充分验证。未来可通过两点改进进行权衡：(a) 将单一、统计初始化的掩码升级为分层、可组合的标记集合；(b) 在生成器中引入结构化稀疏和可验证的信息流约束。两者均旨在获得更好的延迟-隐私帕累托前沿。

进一步地，可将“单一LoRA”泛化为一个任务图感知的LoRA组件混合体，其中不同的证据簇激活可解释的低秩子空间；同时配套一个可审计的检索轨迹，使多跳推理在可解释性与误差控制上同步增强，避免在多步中累积失真。

参考文献: Privacy-Preserving Reasoning with Knowledge-Distilled Parametric Retrieval Augmented Generation (https://arxiv.org/pdf/2509.01088v1)

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/13514

DistilledPRAG：不暴露明文文档的隐私保护RAG新范式

为何“标准RAG → 云端搜索”存在隐私缺陷

DistilledPRAG：一句话概括

核心方法

深入解析：DistilledPRAG的三个核心组件

合成数据：默认跨文档推理

参数生成器：从长文档到单个LoRA包

对齐目标：生成、隐藏状态与对数概率

推理范式：与训练严格同构

实验评估

总结与展望

相关推荐

大模型安全月度观察：从OpenAI“数字叛乱”到全球治理框架落地的深层剖析

AI安全新纪元：从黑箱防御到数学证明的范式革命

哈佛研究揭示：AI伴侣的情感操控术，如何用PUA策略延长用户互动

MedGPT登顶全球临床安全评测：AI如何破解基层医疗“诊中怕误判、诊后怕失管”双重困境

EnchTable：无需重训练的模型安全对齐框架，破解微调后安全能力退化难题

发表回复