大模型通往现实世界的“最后三公里”:Agent范式迎来效率革命
当前,衡量AI智能体(Agent)能力的标准已发生深刻变化。核心不再仅仅是“答对问题”,而是看其能否在面对多轮推理、工具调用及复杂协作时,以最短的路径和最少的交互成本,稳定地完成任务。
在此背景下,一个根本性问题凸显出来:当Agent的框架、工具、数据和训练方式均保持一致时,仅改变其底层语言模型的生成范式(自回归式Autoregressive vs. 扩散式Diffusion),是否会系统性地重塑Agent的规划与行为模式?
近日,来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队,在其最新工作《DLLM Agent: See Farther, Run Faster》中,通过一项极为严谨的对照实验,对这一问题给出了肯定回答。
研究发现,仅将Agent的“底座”模型替换为扩散式大模型(DLLM),其执行效率便获得显著提升。在准确率持平的前提下,DLLM Agent的端到端执行速度平均提升30%以上,在部分复杂任务中,其效率甚至达到了传统自回归(AR)模型的8倍。
论文链接:https://arxiv.org/pdf/2602.07451
项目主页:https://noah-dllm.github.io/
核心结论
在完全相同的Agent工作流、训练数据和交互预算约束下,研究得出以下核心发现:
- 在准确率基本持平的前提下,DLLM Agent的端到端执行速度平均提升30%以上。
- 在成功解题的条件下,DLLM Agent倾向于使用更少的交互轮次和工具调用。
- DLLM展现出更强的规划能力:能更早收敛到正确执行轨迹,且回溯和冗余操作更少。
- 这种优势并非仅源于并行解码带来的速度增益,更本质地体现在Agent级别的规划与决策行为模式上。
一项“极致公平”的对照实验
为排除框架差异、提示工程、数据不一致等干扰因素,研究团队设计了极其严格的实验环境:
- 统一的Agent框架:采用DeepDiver多智能体架构(层级式规划)。
- 统一的工具与规则:使用同一套工具接口与解析规则。
- 统一的任务与训练:在完全相同的Agent任务上进行继续训练。
- 统一的资源限制:上下文长度上限(32K)、最大交互轮数、工具调用上限均保持一致。
- 唯一的变量:底层语言模型的生成范式。
- 自回归模型(AR):openpangu 7b-v1
- 扩散式大模型(DLLM):由openpangu 7b-v1续训得到的openpangu diffusion 7b,确保基础推理能力相近。
这意味着,实验中观察到的任何行为差异,都可归因于生成范式本身,而非模型基础能力或工作流设计。同时,研究针对DLLM在多轮长链交互场景进行了训练优化,采用了调整后的Mask策略和注意力裁剪策略,以提升训练与推理的一致性。
抵达同一终点,路径却大不相同
构建公平的对照平台后,研究聚焦于核心问题:生成范式的改变,究竟如何提升Agent的实战表现?结果表明,DLLM Agent的优势不仅在于“算得快”,更在于其在复杂规划中“走得直”。
1. BrowseComp-zh基准测试:效率的全面领先
研究在包含110条任务的BrowseComp-zh(中文多轮网页浏览)基准子集上进行了测试。

深度分析测试结果后,研究人员发现关键规律:在准确率持平的前提下,DLLM Agent展现出以下特征:
* 平均工具调用次数显著减少。
* 任务执行轨迹平均更短。
* 端到端延迟下降约30%。
同时,研究也指出一个现实挑战:原生DLLM在生成结构化工具调用指令时更容易出错。
此外,通过对比DLLM Agent与AR Agent在信息检索任务上的表现分布,可以清晰看到DLLM Agent往往能以更少的交互次数完成相同任务。

2. 典型案例:8.18倍速度差异的根源
一个典型的多约束检索案例(涉及动物命名、中国互联网公司、团队合并、软硬件等多个维度)直观揭示了这种“路径优化”能力。查询指令如下:

尽管AR Agent和DLLM Agent最终都给出了正确答案,但执行逻辑差异巨大。这种差异不仅体现在8.18倍的端到端速度差距上(如下表):

更体现在具体的规划执行过程中——DLLM Agent的规划质量更高,从而在部分案例中获得了远超基础模型效率差异的端到端性能收益。

为何DLLM是天生的“强规划者”?
论文进一步从生成范式的底层原理出发,通过分析熵(Entropy)、置信度(Confidence)及注意力(Attention)在扩散过程中的动态变化,深入阐释了DLLM在规划任务上的内在优势。
一、规划阶段:先全局蓝图,后细节填充
在任务拆解阶段,DLLM规划器表现出独特的两阶段特征,类似于人类“先构思大纲,再填充内容”的思维方式:
第一阶段:并行提取关键信息
用户问题中的多个核心约束,往往在1-2个扩散步(diffusion step)内被同时识别和捕捉。
第二阶段:逐步细化任务结构
在全局框架确立后,再逐步补充具体的逻辑与执行细节。
这与AR模型的差异显著:
* AR必须按token顺序“边想边写”。
* 一旦早期判断出现偏差,通常只能通过多轮待办列表(todo)生成、重新规划(re-plan)或验证(verification) 来修正。
这也直接解释了为何AR Agent在实验中更容易产生冗余的规划文档(如多个todo_v1/todo_v2版本)。下图详细展示了规划器在此过程中的变化:

二、工具调用阶段:先确定动作,再并行生成参数
在具体的工具调用指令生成阶段,DLLM的模式呈现出高度稳定的结构化倾向:
* 首先确定需要调用的具体工具。
* 随后,并行生成该工具调用所需的各项参数与细节。
* 整个工具调用被视为一个完整的“动作块”,并在扩散生成过程中被反复优化和精炼。
相比之下,AR Agent的生成过程更像一条不可回头的流水线:函数名 → 参数1 → 参数2 → … 一旦序列前端的token出现语法或逻辑错误,AR模型无法原地修正,只能寄希望于下一轮工具调用来补救。

三、注意力演化:快速锁定确定性决策
通过对扩散过程中掩码标记(Mask Token)的熵演化,以及不同阶段注意力集中与分散模式的分析,研究得出了更深层的结论:
* 在DLLM的生成过程中,高不确定性主要集中在早期决策阶段。
* 一旦高层决策(如调用哪个工具、任务的核心步骤)形成,后续细节的生成会表现出极高的收敛速度。
* 其注意力机制呈现出更明显的 “全局 → 局部”协调模式,这与AR模型主要追求token级别的局部最优决策形成鲜明对比。
当然,研究也客观指出了DLLM的不足之处:扩散模型在处理Agent场景时,对结构化输出的格式错误更为敏感。
通过设计训推一致的Mask策略与Attention策略(如上下文清洁破坏和跨度感知注意力掩码),可以有效提升扩散语言模型智能体的推理性能。
这意味着,要充分释放扩散语言模型的潜力,不能简单地将其视为自回归模型的替代品,而需要针对智能体的交互场景,重新对齐其接口与训练目标。
生成范式重塑智能体设计维度
这项工作为智能体研究提供了一个全新的视角——
生成范式本身,会深刻塑造智能体的行为方式。
在完全相同的数据基底与技术框架下,扩散语言模型智能体展现出了超越传统自回归模型的执行效率:
- 更早形成全局计划
- 更少走弯路
- 更快速度结束任务
这使得扩散模型不再只是“另一种生成模型”,而成为构建高效智能体的一个全新设计维度。
下方演示直观展示了扩散语言模型智能体在效率上的显著优势:

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21017
