华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

大模型通往现实世界的“最后三公里”：Agent范式迎来效率革命

当前，衡量AI智能体（Agent）能力的标准已发生深刻变化。核心不再仅仅是“答对问题”，而是看其能否在面对多轮推理、工具调用及复杂协作时，以最短的路径和最少的交互成本，稳定地完成任务。

在此背景下，一个根本性问题凸显出来：当Agent的框架、工具、数据和训练方式均保持一致时，仅改变其底层语言模型的生成范式（自回归式Autoregressive vs. 扩散式Diffusion），是否会系统性地重塑Agent的规划与行为模式？

近日，来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队，在其最新工作《DLLM Agent: See Farther, Run Faster》中，通过一项极为严谨的对照实验，对这一问题给出了肯定回答。

研究发现，仅将Agent的“底座”模型替换为扩散式大模型（DLLM），其执行效率便获得显著提升。在准确率持平的前提下，DLLM Agent的端到端执行速度平均提升30%以上，在部分复杂任务中，其效率甚至达到了传统自回归（AR）模型的8倍。

论文链接：https://arxiv.org/pdf/2602.07451
项目主页：https://noah-dllm.github.io/

核心结论

在完全相同的Agent工作流、训练数据和交互预算约束下，研究得出以下核心发现：

在准确率基本持平的前提下，DLLM Agent的端到端执行速度平均提升30%以上。
在成功解题的条件下，DLLM Agent倾向于使用更少的交互轮次和工具调用。
DLLM展现出更强的规划能力：能更早收敛到正确执行轨迹，且回溯和冗余操作更少。
这种优势并非仅源于并行解码带来的速度增益，更本质地体现在Agent级别的规划与决策行为模式上。

一项“极致公平”的对照实验

为排除框架差异、提示工程、数据不一致等干扰因素，研究团队设计了极其严格的实验环境：

统一的Agent框架：采用DeepDiver多智能体架构（层级式规划）。
统一的工具与规则：使用同一套工具接口与解析规则。
统一的任务与训练：在完全相同的Agent任务上进行继续训练。
统一的资源限制：上下文长度上限（32K）、最大交互轮数、工具调用上限均保持一致。
唯一的变量：底层语言模型的生成范式。
- 自回归模型（AR）：openpangu 7b-v1
- 扩散式大模型（DLLM）：由openpangu 7b-v1续训得到的openpangu diffusion 7b，确保基础推理能力相近。

这意味着，实验中观察到的任何行为差异，都可归因于生成范式本身，而非模型基础能力或工作流设计。同时，研究针对DLLM在多轮长链交互场景进行了训练优化，采用了调整后的Mask策略和注意力裁剪策略，以提升训练与推理的一致性。

抵达同一终点，路径却大不相同

构建公平的对照平台后，研究聚焦于核心问题：生成范式的改变，究竟如何提升Agent的实战表现？结果表明，DLLM Agent的优势不仅在于“算得快”，更在于其在复杂规划中“走得直”。

1. BrowseComp-zh基准测试：效率的全面领先

研究在包含110条任务的BrowseComp-zh（中文多轮网页浏览）基准子集上进行了测试。

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

深度分析测试结果后，研究人员发现关键规律：在准确率持平的前提下，DLLM Agent展现出以下特征：
* 平均工具调用次数显著减少。
* 任务执行轨迹平均更短。
* 端到端延迟下降约30%。

同时，研究也指出一个现实挑战：原生DLLM在生成结构化工具调用指令时更容易出错。

此外，通过对比DLLM Agent与AR Agent在信息检索任务上的表现分布，可以清晰看到DLLM Agent往往能以更少的交互次数完成相同任务。

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

2. 典型案例：8.18倍速度差异的根源

一个典型的多约束检索案例（涉及动物命名、中国互联网公司、团队合并、软硬件等多个维度）直观揭示了这种“路径优化”能力。查询指令如下：

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

尽管AR Agent和DLLM Agent最终都给出了正确答案，但执行逻辑差异巨大。这种差异不仅体现在8.18倍的端到端速度差距上（如下表）：

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

更体现在具体的规划执行过程中——DLLM Agent的规划质量更高，从而在部分案例中获得了远超基础模型效率差异的端到端性能收益。

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

为何DLLM是天生的“强规划者”？

论文进一步从生成范式的底层原理出发，通过分析熵（Entropy）、置信度（Confidence）及注意力（Attention）在扩散过程中的动态变化，深入阐释了DLLM在规划任务上的内在优势。

一、规划阶段：先全局蓝图，后细节填充

在任务拆解阶段，DLLM规划器表现出独特的两阶段特征，类似于人类“先构思大纲，再填充内容”的思维方式：

第一阶段：并行提取关键信息
用户问题中的多个核心约束，往往在1-2个扩散步（diffusion step）内被同时识别和捕捉。

第二阶段：逐步细化任务结构
在全局框架确立后，再逐步补充具体的逻辑与执行细节。

这与AR模型的差异显著：
* AR必须按token顺序“边想边写”。
* 一旦早期判断出现偏差，通常只能通过多轮待办列表（todo）生成、重新规划（re-plan）或验证（verification） 来修正。

这也直接解释了为何AR Agent在实验中更容易产生冗余的规划文档（如多个todo_v1/todo_v2版本）。下图详细展示了规划器在此过程中的变化：

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

二、工具调用阶段：先确定动作，再并行生成参数

在具体的工具调用指令生成阶段，DLLM的模式呈现出高度稳定的结构化倾向：
* 首先确定需要调用的具体工具。
* 随后，并行生成该工具调用所需的各项参数与细节。
* 整个工具调用被视为一个完整的“动作块”，并在扩散生成过程中被反复优化和精炼。

相比之下，AR Agent的生成过程更像一条不可回头的流水线：函数名 → 参数1 → 参数2 → … 一旦序列前端的token出现语法或逻辑错误，AR模型无法原地修正，只能寄希望于下一轮工具调用来补救。

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

三、注意力演化：快速锁定确定性决策

通过对扩散过程中掩码标记（Mask Token）的熵演化，以及不同阶段注意力集中与分散模式的分析，研究得出了更深层的结论：
* 在DLLM的生成过程中，高不确定性主要集中在早期决策阶段。
* 一旦高层决策（如调用哪个工具、任务的核心步骤）形成，后续细节的生成会表现出极高的收敛速度。
* 其注意力机制呈现出更明显的 “全局 → 局部”协调模式，这与AR模型主要追求token级别的局部最优决策形成鲜明对比。

当然，研究也客观指出了DLLM的不足之处：扩散模型在处理Agent场景时，对结构化输出的格式错误更为敏感。

通过设计训推一致的Mask策略与Attention策略（如上下文清洁破坏和跨度感知注意力掩码），可以有效提升扩散语言模型智能体的推理性能。

这意味着，要充分释放扩散语言模型的潜力，不能简单地将其视为自回归模型的替代品，而需要针对智能体的交互场景，重新对齐其接口与训练目标。

生成范式重塑智能体设计维度

这项工作为智能体研究提供了一个全新的视角——

生成范式本身，会深刻塑造智能体的行为方式。

在完全相同的数据基底与技术框架下，扩散语言模型智能体展现出了超越传统自回归模型的执行效率：

更早形成全局计划
更少走弯路
更快速度结束任务

这使得扩散模型不再只是“另一种生成模型”，而成为构建高效智能体的一个全新设计维度。

下方演示直观展示了扩散语言模型智能体在效率上的显著优势：

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21017

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

大模型通往现实世界的“最后三公里”：Agent范式迎来效率革命

核心结论

一项“极致公平”的对照实验

抵达同一终点，路径却大不相同

1. BrowseComp-zh基准测试：效率的全面领先

2. 典型案例：8.18倍速度差异的根源

为何DLLM是天生的“强规划者”？

一、规划阶段：先全局蓝图，后细节填充

二、工具调用阶段：先确定动作，再并行生成参数

三、注意力演化：快速锁定确定性决策

生成范式重塑智能体设计维度

相关推荐

构建智能数据库对话助手：基于RAG的Text-to-SQL聊天机器人实战

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

千问AI Agent：从对话到任务执行的革命性跃迁，揭秘其核心技术架构与生态协同

构建可扩展、生产级的 Agentic RAG Pipeline：分层架构与六层核心设计详解