让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

当前主流的搜索智能体(Agent)普遍存在一个效率瓶颈:其执行流程是严格串行的。以广泛采用的ReAct框架为例,其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下,模型在等待搜索引擎返回结果时完全处于空闲状态,造成了大量的时间浪费。多轮交互中,延迟不断累积,严重影响了用户体验。

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

研究团队通过分析发现,在多跳问答等复杂任务中,这种“干等”的串行等待消耗了可观的端到端响应时间。

一个自然的改进思路是:能否让模型在等待搜索结果的同时,继续思考下一步?这对于传统的自回归大语言模型(如GPT系列)而言是难以实现的。因为自回归模型依赖因果注意力机制,必须按顺序从左到右生成token。如果强行改变顺序,让其先输出工具调用再输出思考内容,模型的推理性能会显著下降。实验表明,Qwen3系列模型在调整顺序后准确率明显降低。

然而,扩散大语言模型 因其独特的生成机制,为解决这一问题提供了新的可能。

扩散模型的并行生成优势

扩散大语言模型与自回归模型的核心区别在于其生成方式:它不是顺序生成token,而是通过“去噪”过程,同时处理所有位置的token,逐步从随机噪声中还原出完整文本

这种机制带来了两个关键特性:
1. 生成顺序自由:模型可以优先解码出文本中任何部分(例如关键的工具调用指令),其他部分后续补全。
2. 潜在并行推理:由于块内采用双向注意力机制,即使在“思考”部分尚未被具体解码时,模型在解码“工具调用”部分时也能利用到潜在的、未显式表达的推理信息。

正如相关研究所指出:扩散模型在解码完成之前,就已经“知晓”了答案的轮廓。 这为其实现“边等边想”奠定了理论基础。

从理论到实践的挑战:原始dLLM的不足

尽管具备理论优势,但直接将现有的扩散语言模型用作搜索智能体却遭遇了失败。研究团队使用当前先进的块扩散模型SDAR,在HotpotQA基准上进行测试,结果在第一轮交互中就因各种格式错误全部失败。

具体问题包括:直接输出结束符、忘记调用工具、标签不完整或生成非法格式等。这表明,原始的扩散模型虽然拥有并行生成的潜力,但缺乏执行复杂推理和遵循工具调用规范的能力

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

两阶段训练法:塑造合格的搜索智能体

为了将扩散大语言模型培养成有效的搜索智能体,团队设计了一套两阶段训练方案。

第一阶段:监督微调
首先,利用一个强大的自回归模型生成高质量的任务执行轨迹,并严格筛选,得到格式正确、推理完整的样本。然后,使用这些样本对扩散模型进行监督微调。

此阶段面临一个技术挑战:如何防止模型在训练时“偷看”答案?在搜索轨迹中,包含模型生成的“思考/行动”和外部返回的“工具响应”。扩散模型的双向注意力机制可能导致它在训练时,就看到了同一文本块内本应在推理后才出现的搜索结果,造成训练与推理场景不匹配。

为此,团队提出了 “Agentic Noising” 技术:只对需要模型学习生成的“思考”和“工具调用”部分添加噪声进行训练;对于“工具响应”部分,则根据其出现位置进行保留或完全掩码,从而阻断信息泄露。相应的损失函数也只在需要学习的位置计算。

第二阶段:偏好优化
在模型学会基本规则后,进一步通过偏好优化提升其表现。让第一阶段训练好的模型生成多组答案,人工或通过规则筛选出“正确”与“错误”的轨迹对,通过对比学习让模型明确区分更好的推理路径。这一步骤在多个数据集上带来了显著的性能提升。

P-ReAct:无需训练的推理加速方案

训练解决了“能力”问题,而要实现“加速”,则需要创新的推理方法。团队提出了 P-ReAct 方案,其核心思想是引导模型优先输出工具调用。

该方法实施简单:
1. 预填充边界标记:在每轮生成开始时,在文本块中预先放置标记,明确划定“工具调用区”。
2. 施加解码偏置:在扩散模型的每一步去噪中,人为提高“工具调用区”token的置信度分数,使其被优先解码。

效果立竿见影:模型几乎总是会先将完整的工具调用指令解码并发送出去,然后在等待结果返回的间隙里,继续完成“思考”部分的生成,真正实现了“行动”与“思考”的并行。

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

性能评估:效率与效果兼得

在HotpotQA等多个多跳问答基准测试中,经过训练的DLLM-Searcher模型取得了与先进自回归搜索智能体相当甚至更优的准确率。

更重要的是,在启用P-ReAct加速方案后,模型实现了 14.8% 到 22.1% 的端到端推理加速,且性能几乎没有损失。相比之下,自回归模型若尝试模仿“先行动后思考”的模式,则会导致准确率显著下降。这证明了并行推理是扩散模型结构带来的独特优势。

此外,该模型仅使用数千条数据训练,便在未见过的数据集上表现出良好的泛化能力,显示了其数据效率。

结论与展望

这项研究首次证明,经过针对性设计与训练,扩散大语言模型不仅能胜任复杂的推理和工具调用任务,更能充分发挥其并行生成的本性,突破自回归模型串行等待的效率瓶颈。这为构建下一代高效、实时的智能体系统开辟了一条新的技术路径。

正如论文所引述的观点:“我们实际上在意识到自己做出决定之前就已经开始行动了。” 扩散模型在搜索任务中展现出的“先执行,后细化”的能力,为人工智能的交互效率带来了新的启发。


论文信息
* 标题:DLLM-Searcher: Adapting Diffusion Large Language Models for Search Agents
* 作者:赵嘉浩、徐少轩、孙忠祥(项目负责人)、徐君(通讯作者)等
* 机构:中国人民大学
* 论文链接:https://arxiv.org/abs/2602.07035
* 项目主页:https://bubble65.github.io/dllm-searcher-pub/

感兴趣的小伙伴可进一步了解研究详情。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23530

(0)
上一篇 18小时前
下一篇 18小时前

相关推荐