当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。
假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。”
在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列表,再调用幻灯片生成 API 创建一份精美的演示文稿。
然而,在真实世界中,你得到的回复可能是:“请问您需要查询哪个国家/地区的热门电影?”、“您希望 PPT 包含哪些具体内容?”、“您想要推荐几部电影?”——一连串的反问让原本简单的任务变得冗长而繁琐。

为什么 AI 在真实场景中表现得如此“迟钝”?这个问题正困扰着整个 AI 领域的研究者。
近日,来自腾讯和伦敦国王学院的研究团队发表了一篇题为 《Benchmarking LLM Tool-Use in the Wild》 的论文,提出了一个全新的评测基准 WildToolBench,揭示了当前大语言模型在真实工具调用场景中存在的巨大能力差距。

图 1:工具使用基准之间的会话准确率对比。该图直观呈现了 WildToolBench 与现有主流基准的会话准确率差异。会话准确率指模型在完整对话中完成所有任务的正确率,是衡量 LLM 工具使用鲁棒性的核心指标。结果显示,传统基准因场景理想化已趋于饱和,而 WildToolBench 因高度贴合真实用户行为,会话准确率显著更低,凸显了其对模型能力评估的严苛性。

图 2:WildToolBench 的三大核心特性。这些特性对用户而言自然易用,但对 LLM 的工具使用能力构成严峻挑战。图中聚焦的三大特性分别是:组合式任务、隐藏意图和指令转换。它们精准地模拟了真实交互的复杂性,打破了传统基准中单一、明确的理想化任务模式。
本文目录
- 一、相关研究:从理想国到荒野求生
- 二、核心创新:三大“荒野”挑战
- 2.1 挑战一:组合任务的工具编排
- 2.2 挑战二:跨对话轮次的隐含意图推断
- 2.3 挑战三:指令转换的自适应策略切换
- 三、数据构建:从真实用户到高质量评测
- 四、实验分析:57 个模型的“荒野求生”
- 4.1 总体表现:没有一个模型及格
- 4.2 工具编排能力:混合任务最难
- 4.3 错误分析:从语法到推理的范式转移
- 结论与展望:从工具执行者到用户理解者
一、相关研究:从理想国到荒野求生
在理解 WildToolBench 的创新之前,有必要回顾现有大语言模型工具使用评测基准的发展历程。
早期的评测基准如 T-EVAL、UltraTool 和 MetaTool,主要关注模型是否能正确选择工具、是否能生成符合格式要求的工具调用参数。然而,这些基准将工具调用视为简单的问答任务,完全忽略了真实交互的多轮对话特性。

表 1:WildToolBench 与其他工具使用基准的对比分析。该表格从上下文多任务、隐藏信息、工具使用类型、指令转换等关键维度,系统对比了 WildToolBench 与 BFCL 系列、ToolBench 等主流基准的差异。结果显示,WildToolBench 是唯一同时覆盖所有复杂维度的基准,而其他基准普遍存在场景单一、忽视真实用户行为的缺陷。
随后出现的 WorfBench 和 TaskBench 迈出了重要一步,引入了单轮多步工具调用的概念,并强调模型的规划能力。但它们仍存在一个关键缺陷:只标注了单一的最优执行路径,并依赖基于相似度的评估指标,这在实际应用中往往不够精确。
ToolBench、AnyToolBench 和 StableToolBench 虽然扩大了 API 规模,但同样局限在单轮交互的范式内。这些基准的共同问题是:它们构建的任务是“理想化”的——用户意图明确、信息完整、任务边界清晰。
然而,真实世界中的用户交互从来都不是这样的。
二、核心创新:三大“荒野”挑战
研究团队通过大规模分析真实用户日志,提炼出三个关键的用户行为特征,构成了 WildToolBench 的设计哲学:“真正挑战大模型工具使用能力的,不是人工构建的复杂场景,而是简单却真实的用户行为。”
2.1 挑战一:组合任务的工具编排
真实用户的指令往往不是单一任务,而是将多个简单需求组合成一个自然表述。例如:
“我想看看最近有哪些热门电影,顺便做个调查问卷的 PPT,最后再把结果发到我的邮箱里。”
这个简单的指令背后,实际上包含了一个复杂的工具调用拓扑结构:需要先搜索电影,然后生成幻灯片,最后发送邮件。但更重要的是,这些子任务之间存在着依赖关系——只有先获取了电影列表,才能制作 PPT;而发送邮件则需要等待 PPT 生成完成。
为了精确评估模型在这方面的能力,研究团队设计了一套巧妙的“枚举-匹配-评分”方法:
枚举阶段
首先由人工专家标注工具之间的相邻依赖关系,然后通过深度优先拓扑排序算法,枚举出所有可能的合法工具执行路径。这种方法不局限于单一的最优路径,而是生成一个考虑所有分支和并行场景的决策树集合。
2. 核心挑战与评估方法
WildToolBench 的设计旨在精准评估大语言模型在复杂、动态的真实场景中使用工具的能力。研究团队识别并系统性地构建了三大核心挑战,并针对性地设计了评估框架。
2.1 挑战一:多工具协同的复杂编排
在真实任务中,用户需求往往无法通过单一工具解决,而是需要模型智能地规划、组合并顺序或并行调用多个工具。WildToolBench 为此设计了“枚举-匹配-评分”三步评估流程,以量化模型的工具编排能力。

图 4:WildToolBench 中工具编排评估的“枚举-匹配-评分”流程可视化。该设计将评估逻辑拆解为三个阶段,是解决组合式任务评估的关键。
1. 枚举阶段
系统通过深度优先拓扑排序,预先枚举出当前任务下所有合法的工具执行路径。如图 4(a) 所示,某些工具分支(如“搜索然后调查”与“幻灯片”分支)可以并行执行,从而生成如图 4(b) 所示的多种可能路径。其核心算法(见算法 1)类似于逐步搭建积木:它首先识别出所有前置依赖已满足、可立即执行的工具,然后尝试所有可能的执行组合(顺序或并行)。算法记录每条探索路径并更新状态,直至所有工具执行完毕,最终收集所有可能路径并确定步骤最少的最优路径。

算法 1:枚举所有可能工具编排路径的伪代码。
2. 匹配阶段
当模型实际执行工具调用时,系统采用增量路径匹配策略,在预先生成的决策树集合中实时定位该调用。每个工具调用要么因不匹配而终止当前路径评估,要么进入对应的子树继续追踪。
3. 评分阶段
通过匹配定位,系统可评估模型执行路径的质量。评分基于两个细粒度指标:
* 最优路径率:当模型完成的执行路径在所有枚举路径中深度最小(步骤最少),则视为具备最优效率。
* 任务完成进度率:根据成功执行的工具节点比例计算,衡量任务执行的完整性。
这套精细化评估方式,弥补了传统基准仅关注最终任务结果、忽视执行过程的缺陷,能更全面地反映模型的工具协同与规划能力。
2.2 挑战二:跨对话轮次的隐含意图推断
研究发现,在序列任务中,高达 80% 的用户会在后续提问中修改或省略上下文信息。这意味着模型必须能够从多轮对话中准确推断用户的潜在意图。WildToolBench 设计了三种策略来构建此类任务:
1. 部分信息
当前用户消息只包含部分必要信息,省略的信息存在于历史对话中。例如,用户首轮询问“巴黎的天气”,次轮问“那伦敦呢?”,模型需推断后者意在查询伦敦天气。
2. 指代引用
当前消息信息完整,但主体通过代词或省略形式指代前文实体。例如:“帮我查查这个导演的其他作品”——“这个导演”指代上一轮讨论的电影导演。
3. 长距离依赖
与“部分信息”类似,但所依赖的缺失信息位于至少两轮之前的对话历史中,对模型的长期上下文关联与定位能力要求最高。

图 5:隐含意图与指令转换挑战的示例。这些场景源于真实用户行为:用户视交互为连贯对话而非孤立任务提交。示例展示了代词指代、任务与闲聊切换等情况,印证了用户常在自然对话中隐含需求,这对模型的上下文推理与动态调整能力提出了挑战。

图 7:不同隐含信息策略下 LLM 的性能表现。长距离依赖任务对几乎所有模型都是最大挑战,无模型准确率超过 50%。结果显示,不同模型能力存在分化(如推理模型在部分信息任务中更优),没有单一模型能在所有方面表现最佳。
2.3 挑战三:指令转换的自适应策略切换
用户在与 AI 助手交互时,常将其视为自然对话,因此对话流可能灵活穿插多种意图:发起任务 ➡️ 询问跟进问题 ➡️ 提供解释 ➡️ 闲聊 ➡️ 打断任务 ➡️ 恢复任务。
这种频繁的指令转换,要求模型能够动态调整策略,在工具使用、直接回答或主动询问澄清之间做出恰当选择。
WildToolBench 将任务分为四种类型,并在每个场景中精心设计其比例与转换频率,以模拟真实对话流:
* g_single:单次工具调用可解决的任务。
* g_multi:需要多步骤工具调用的任务。
* g_chat:对话式或无需工具的任务。
* g_clarify:需要助手请求澄清的任务。

图 8:随着指令转换频率增加,LLM 性能逐渐下降。无论模型类型(开源/闭源、通用/专用),准确率均随转换次数增加而下降,最大降幅达30%。这源于模型的“自我条件化”倾向(历史响应影响当前决策)及长上下文注意力稀释。
实验结果揭示了两个主要原因:
1. 高频转换往往对应更灵活复杂的用户需求,任务本身难度更高。
2. 模型存在“自我条件化”倾向,之前的行为会干扰后续的响应策略选择,导致模型难以适应快速切换的对话意图。
3. 数据构建:从真实用户行为到高质量评测集
WildToolBench 的数据构建遵循一套严谨的三步流程,确保基准既贴合真实场景,又具备评估可靠性。

图 3:WildToolBench 的数据构建流程。
第一步:场景生成
从大规模真实用户日志中提炼种子应用场景与用户行为模式,通过迭代重写与扩展,最终构建了 256 个多样化的任务场景。
第二步:工具集构建
遵循 ToolAlpaca 方法,从互联网收集 1600 多个公开 API,经人工验证和清洗后形成基础工具集。随后,为每个场景匹配合适的工具子集,并基于此生成 4 个具体任务。
第三步:轨迹生成与验证
使用 GPT-4o 构建多智能体系统,模拟用户与助手角色,在给定任务和工具子集下生成初始对话与工具调用轨迹。每个工具调用都经过人工严格检查和标注,确保其正确性与合理性。
整个构建过程由 9 名人类专家参与,耗时一个月,经过四轮迭代优化,将数据质量从初期的 62% 逐步提升至最终的 100%。
四、实验分析:57 个模型的“荒野求生”
研究团队对 57 个主流大语言模型进行了全面评测,涵盖了闭源通用模型、开源通用模型以及专门针对工具使用训练的开源专用模型。
4.1 总体表现:没有一个模型及格
最引人注目的发现是:没有一个主流 LLM 的会话准确率超过 15%,同时,大多数模型的任务准确率也低于 60%。这一结果清晰地表明,WildToolBench 的难度远超现有基准,真实世界的用户行为模式给大模型带来了巨大挑战。

- 从任务类型看:当用户意图是闲聊或无工具回答时,大多数模型能可靠识别并恰当回应。但当意图涉及多步工具调用时,模型表现急剧下降。
- 从任务顺序看:随着对话轮次增加,模型准确率呈下降趋势,说明多轮上下文的管理能力仍有待提升。

与其他基准相比,WildToolBench 的挑战性尤为突出。当其他基准(如 BFCL-v4、τ-Bench)的性能已趋于饱和时,WildToolBench 上最佳模型的会话准确率仅为 14.45%。这标志着模型评估需要从理想化场景转向真实用户行为模式。
4.2 工具编排能力:混合任务最难
研究团队进一步分析了模型在面对不同工具拓扑结构(并行、顺序、混合)时的表现。

结果显示,混合结构任务(需要同时处理顺序和并行结构)最难,最高准确率仅为 25%。最优路径率的峰值也仅为 42.74%,说明当前模型在工具执行效率上还有很大提升空间。
一个有趣的发现是:专门的工具使用模型表现反而不如通用模型,这说明“专用”可能导致模型变得“脆弱”。
* Claude-4-Sonnet 在复杂推理方面展现出明显优势。
* Gemini 系列在并行任务上表现优异,但在混合任务中急剧下降。
* GLM-4.5 在顺序和混合任务中表现突出,甚至超越了一些闭源模型。
值得注意的是,在同一系列中,启用推理能力的模型版本普遍优于非推理版本。
4.3 错误分析:从语法到推理的范式转移
错误分析揭示了两种截然不同的失败模式:
* “谨慎”型特征:以 Gemini-2.0-Thinking 为代表,宁可拒绝任务(拒绝率 24.56%),也不愿冒错误行动的风险(工具错误率仅 8.02%)。
* “急切”型特征:以 Grok-4 为代表,尽量减少拒绝(拒绝率 3.72%),但代价是错误选择工具的概率显著升高(工具错误率 24.07%)。

“工具名称错误/信息缺失”和“冗余调用”是最普遍的错误类型,这揭示了模型在意图理解和上下文管理方面的系统性缺陷。 在部分专用开源模型中,这一问题尤为突出。
相反,参数级别的错误(如“参数类型错误”)在所有模型中保持较低水平。这表明智能体发展的前沿已从基本的语法生成转向更高层次的规划和推理。 “冗余调用”错误的普遍性揭示了大多数能力较强的模型在长期规划方面的缺陷,表明它们难以有效管理跨时间的上下文。

正如论文所强调的:“真正挑战大语言模型工具使用能力的,不是人工构建的复杂场景,而是简单却真实的用户行为。”
随着 WildToolBench 这类更贴近真实场景的评测基准的出现,未来的 AI 模型将不得不从“实验室优等生”进化为“荒野生存专家”。而这,正是我们作为真实用户所需要的。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26265


