让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

当前主流的搜索智能体（Agent）普遍存在一个效率瓶颈：其执行流程是严格串行的。以广泛采用的ReAct框架为例，其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下，模型在等待搜索引擎返回结果时完全处于空闲状态，造成了大量的时间浪费。多轮交互中，延迟不断累积，严重影响了用户体验。

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

研究团队通过分析发现，在多跳问答等复杂任务中，这种“干等”的串行等待消耗了可观的端到端响应时间。

一个自然的改进思路是：能否让模型在等待搜索结果的同时，继续思考下一步？这对于传统的自回归大语言模型（如GPT系列）而言是难以实现的。因为自回归模型依赖因果注意力机制，必须按顺序从左到右生成token。如果强行改变顺序，让其先输出工具调用再输出思考内容，模型的推理性能会显著下降。实验表明，Qwen3系列模型在调整顺序后准确率明显降低。

然而，扩散大语言模型 因其独特的生成机制，为解决这一问题提供了新的可能。

扩散模型的并行生成优势

扩散大语言模型与自回归模型的核心区别在于其生成方式：它不是顺序生成token，而是通过“去噪”过程，同时处理所有位置的token，逐步从随机噪声中还原出完整文本。

这种机制带来了两个关键特性：
1. 生成顺序自由：模型可以优先解码出文本中任何部分（例如关键的工具调用指令），其他部分后续补全。
2. 潜在并行推理：由于块内采用双向注意力机制，即使在“思考”部分尚未被具体解码时，模型在解码“工具调用”部分时也能利用到潜在的、未显式表达的推理信息。

正如相关研究所指出：扩散模型在解码完成之前，就已经“知晓”了答案的轮廓。 这为其实现“边等边想”奠定了理论基础。

从理论到实践的挑战：原始dLLM的不足

尽管具备理论优势，但直接将现有的扩散语言模型用作搜索智能体却遭遇了失败。研究团队使用当前先进的块扩散模型SDAR，在HotpotQA基准上进行测试，结果在第一轮交互中就因各种格式错误全部失败。

具体问题包括：直接输出结束符、忘记调用工具、标签不完整或生成非法格式等。这表明，原始的扩散模型虽然拥有并行生成的潜力，但缺乏执行复杂推理和遵循工具调用规范的能力。

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

两阶段训练法：塑造合格的搜索智能体

为了将扩散大语言模型培养成有效的搜索智能体，团队设计了一套两阶段训练方案。

第一阶段：监督微调
首先，利用一个强大的自回归模型生成高质量的任务执行轨迹，并严格筛选，得到格式正确、推理完整的样本。然后，使用这些样本对扩散模型进行监督微调。

此阶段面临一个技术挑战：如何防止模型在训练时“偷看”答案？在搜索轨迹中，包含模型生成的“思考/行动”和外部返回的“工具响应”。扩散模型的双向注意力机制可能导致它在训练时，就看到了同一文本块内本应在推理后才出现的搜索结果，造成训练与推理场景不匹配。

为此，团队提出了 “Agentic Noising” 技术：只对需要模型学习生成的“思考”和“工具调用”部分添加噪声进行训练；对于“工具响应”部分，则根据其出现位置进行保留或完全掩码，从而阻断信息泄露。相应的损失函数也只在需要学习的位置计算。

第二阶段：偏好优化
在模型学会基本规则后，进一步通过偏好优化提升其表现。让第一阶段训练好的模型生成多组答案，人工或通过规则筛选出“正确”与“错误”的轨迹对，通过对比学习让模型明确区分更好的推理路径。这一步骤在多个数据集上带来了显著的性能提升。

P-ReAct：无需训练的推理加速方案

训练解决了“能力”问题，而要实现“加速”，则需要创新的推理方法。团队提出了 P-ReAct 方案，其核心思想是引导模型优先输出工具调用。

该方法实施简单：
1. 预填充边界标记：在每轮生成开始时，在文本块中预先放置标记，明确划定“工具调用区”。
2. 施加解码偏置：在扩散模型的每一步去噪中，人为提高“工具调用区”token的置信度分数，使其被优先解码。

效果立竿见影：模型几乎总是会先将完整的工具调用指令解码并发送出去，然后在等待结果返回的间隙里，继续完成“思考”部分的生成，真正实现了“行动”与“思考”的并行。

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

性能评估：效率与效果兼得

在HotpotQA等多个多跳问答基准测试中，经过训练的DLLM-Searcher模型取得了与先进自回归搜索智能体相当甚至更优的准确率。

更重要的是，在启用P-ReAct加速方案后，模型实现了 14.8% 到 22.1% 的端到端推理加速，且性能几乎没有损失。相比之下，自回归模型若尝试模仿“先行动后思考”的模式，则会导致准确率显著下降。这证明了并行推理是扩散模型结构带来的独特优势。

此外，该模型仅使用数千条数据训练，便在未见过的数据集上表现出良好的泛化能力，显示了其数据效率。

结论与展望

这项研究首次证明，经过针对性设计与训练，扩散大语言模型不仅能胜任复杂的推理和工具调用任务，更能充分发挥其并行生成的本性，突破自回归模型串行等待的效率瓶颈。这为构建下一代高效、实时的智能体系统开辟了一条新的技术路径。

正如论文所引述的观点：“我们实际上在意识到自己做出决定之前就已经开始行动了。” 扩散模型在搜索任务中展现出的“先执行，后细化”的能力，为人工智能的交互效率带来了新的启发。

论文信息
* 标题：DLLM-Searcher: Adapting Diffusion Large Language Models for Search Agents
* 作者：赵嘉浩、徐少轩、孙忠祥（项目负责人）、徐君（通讯作者）等
* 机构：中国人民大学
* 论文链接：https://arxiv.org/abs/2602.07035
* 项目主页：https://bubble65.github.io/dllm-searcher-pub/

感兴趣的小伙伴可进一步了解研究详情。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23530

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

扩散模型的并行生成优势

从理论到实践的挑战：原始dLLM的不足

两阶段训练法：塑造合格的搜索智能体

P-ReAct：无需训练的推理加速方案

性能评估：效率与效果兼得

结论与展望

相关推荐

北大清华联手DeepSeek突破Agentic LLM推理瓶颈！DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

DeepSeek R1爆更86页论文：开源模型如何用强化学习实现推理能力突破

Unsloth革命：手机端大模型部署实战，40-50 token/s流畅体验揭秘

美团LongCat技术突破：LoZA稀疏注意力机制实现10倍解码加速，轻松驾驭百万级长文本

Meta REFRAG革新RAG架构：30倍提速、16倍上下文、成本减半，彻底解决上下文垃圾问题