Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning
* https://arxiv.org/pdf/2512.15943

随着各机构大规模采用生成式人工智能(AI),模型成本优化与运营效率已成为决定其可持续性和可及性的关键因素。
尽管大型语言模型(LLMs)在各类任务中展现出令人印象深刻的能力,但其庞大的计算需求使其在企业日常使用中成本过高而难以承担。这一局限推动了对小型语言模型(SLMs)的探索——这类模型在特定目标应用场景中可实现相近性能,同时大幅降低基础设施开销[Irugalbandara et al., 2023]。
在本研究中,我们探究了用经过优化的小型语言模型替代大型语言模型驱动流程的可行性 。我们 训练了一个领域适配的小型语言模型,以执行传统上由大型语言模型处理的代表性任务 ,例如文档摘要、问答和结构化数据解读。
在实验过程中,我们使用 Hugging Face TRL(Transformer 强化学习)库中的有监督微调(Supervised Fine-Tuning, SFT)训练器,对 facebook/opt-350m 模型进行了微调(仅训练一个轮次) 。
OPT-350M 模型由 Meta AI 于 2022 年发布,属于 OPT(Open Pretrained Transformer,开放预训练 Transformer)系列模型。相关研究表明,即便是参数规模为 3.5 亿的模型,也能在指令微调流程中发挥重要作用[Mekala et al., 2024]。
实验结果显示,我们微调后的小型语言模型表现卓越:在 ToolBench(工具调用评估基准)评估中的通过率达到 77.55%, 显著优于所有基线模型,包括 ChatGPT-CoT(26.00%) 、ToolLLaMA-DFS(30.18%)和 ToolLLaMA-CoT(16.27%)。
这些发现表明,通过精心设计和目标导向训练,小型语言模型可显著降低生成式 AI 的应用门槛 ,助力企业将其以经济高效的方式大规模集成到生产系统中。
本文目录
- 一、引言
- 二、相关研究
- 2.1 工具增强语言模型
- 2.2 小型语言模型与效率
- 2.3 有监督微调与领域适配
- 2.4 评估框架与基准
- 三、方法
- 3.1 实验设定
- 四、评估框架
- 4.1 模型配置
- 4.2 ToolEval 评估流程
- 4.3 质量保证
- 五、结果
- 六、讨论
- 6.1 为何专用小型语言模型(SLM)优于大型通用模型
- 6.2 最优参数-任务对齐
- 6.3 局限性与潜在问题
- 6.4 对未来研究的启示
- 七、结论

一、引言
在生产级规模下运行最先进的大型语言模型,需要投入大量基础设施、承担持续的运营成本,且往往依赖封闭 API ——这会带来额外的数据隐私、延迟和稳健性风险。对于希望将生成式 AI 深度嵌入关键业务运营的机构而言,这些约束构成了重大障碍。这一现状推动研究方向转向新的路径:不仅要优化模型性能,还要兼顾经济可行性与运营可行性。
本文探究了一个核心问题:通过目标导向微调并结合实际可行的人工监督,小型语言模型能否在智能体工具调用任务上达到与大型语言模型相近的性能? 该问题源于生成式 AI 大规模应用的广泛背景——在此背景下,模型能力与成本之间的平衡变得愈发关键 。尽管工具增强语言模型的研究已取得显著进展,但在模型规模、训练效率与任务性能之间的权衡关系方面,仍存在关键认知缺口。现有研究大多聚焦于扩大模型参数规模或改进训练技术,而系统性探究小型模型能否通过目标优化实现竞争力性能的研究则相对较少。
此外,尽管以往研究已证明小型语言模型在特定领域具有潜力,但在多种工具操作场景下的全面评估仍较为有限。我们在 ToolBench 六个评估类别中的系统性评估,为小型语言模型在智能体工具调用中的有效性提供了有力证据。
我们的核心假设是:经过精心训练和对齐(指调整模型输出以匹配人类期望和任务需求)的小型语言模型,在工具调用、结构化自动化等特定目标任务上,可实现与大型语言模型接近的性能 。我们使用 ToolBench 数据集对 facebook/opt-350m 模型进行了微调,并在 Amazon SageMaker(亚马逊/sagemaker,云机器学习平台)上完成训练,同时集成了 Hugging Face TRL 库。
本文其余部分结构如下:
- 第 2 章回顾工具增强语言模型和小型模型优化领域的相关研究;
- 第 3 章探讨大型语言模型的运营挑战;
- 第 4 章阐述我们的小型语言模型方案 ;
- 第 5 章介绍 ToolBench 评估框架;
- 第 6 章呈现实验结果——我们的小型语言模型通过率达到 77.55%;
- 第 7 章总结研究对可扩展 AI 部署的启示 。
二、相关研究
2.1 工具增强语言模型
外部工具与语言模型的集成,已成为突破纯文本生成局限、提升 AI 能力的关键研究方向。Schick 等人[2023]提出了 Toolformer(工具学习模型)概念,通过自监督学习( 一种无需人工标注数据,让模型从自身数据中学习规律的训练方式 )教会语言模型使用外部 API 。这项基础性研究证明,模型能够学习调用计算器、搜索引擎等工具,以提升问题解决能力。
在这一基础上,Yao 等人[2023]提出了 ReAct(推理-行动框架)范式——该范式融合推理与行动,让模型在生成思考过程和执行行动之间交替进行。这种方法在多步推理任务中展现出显著性能提升,成为工具增强 AI 系统的标准框架 。ReAct 框架的成功使其在多个应用场景中得到广泛采用,从网页浏览智能体到代码生成系统均有涉及。
近期,ToolLLM研究[Qin et al., 2023]将工具集成扩展到16000多个真实世界API,构建了用于评估工具操作能力的全面基准。该研究确立了ToolBench作为标准评估框架的地位,并证明微调后的模型在工具调用场景中,可与GPT-4等专有系统实现竞争力性能。
与此同时,Patil等人[2023]对Gorilla的研究聚焦于API调用生成,证明在特定领域中,小型专用模型可超越大型通用模型。这项研究为“目标导向训练可突破参数规模限制”的核心假设提供了早期证据支持。
2.2 小型语言模型与效率
随着部署成本和环境问题日益受到关注,高效语言模型的研究逐渐成为热点。Touvron等人[2023]提出了LLaMA——该研究证明,在高质量数据上训练的小型模型,可达到甚至超过规模大得多的同类模型的性能。这项研究挑战了“模型规模与能力直接相关”的普遍观点。
随后,Taori等人[2023]对Alpaca的研究表明,通过在高质量指令数据集上进行精心微调,可将指令遵循能力有效迁移到小型模型中。该研究证明,一个70亿参数的模型在许多任务上可达到与规模大得多的系统相近的性能。
知识蒸馏是一种将大型“教师模型”的知识迁移到小型“学生模型”的技术,其概念由Hinton等人[2015]提出,Sanh等人[2019]将其应用于语言模型并提出DistilBERT。这些研究为我们的方法提供了理论基础,证明通过合适的训练策略,小型模型可捕捉大型教师模型的核心能力。
近期,Zhou等人[2023]关于参数高效微调方法(如LoRA)的研究表明,对模型参数的小子集进行针对性修改,可实现显著的性能提升。这一研究方向与我们聚焦“面向特定任务的高效训练方法”的核心思路高度一致。
2.3 有监督微调与领域适配
有监督微调(SFT)已成为将预训练语言模型适配到特定领域和任务的关键技术。Ouyang等人[2022]在InstructGPT研究中证明了有监督微调的有效性——该研究表明,结合人类反馈和有监督训练,可显著提升模型的对齐效果和任务性能。
由von Werra等人[2022]开发的Hugging Face TRL库,降低了先进微调技术的使用门槛。该库中的SFTTrainer实现提供了稳健的基础设施,可无缝处理数据集管理、训练循环和评估指标等任务。
领域特定适配在多个领域均有广泛研究。Rogers等人[2020]对BERT模型适配的综合分析表明,领域特定微调往往优于通用模型。类似结论在生物医学文本处理[Lee et al., 2020]、法律文档分析[Chalkidis et al., 2020]等专业领域的研究中也得到了验证。
近期,Muennighoff等人[2023]关于指令微调的研究表明,通过精心的数据集筛选和训练流程,可有效让模型学会遵循复杂指令。这项研究为我们“训练小型语言模型执行工具操作任务”的方法提供了理论支持。
2.4 评估框架与基准
稳健的评估框架是评估工具增强语言模型的核心。由Qin等人[2023]提出的ToolBench基准,是目前最全面的工具操作评估套件——它涵盖了多样的API和不同复杂度的任务,并提供了标准化指标,用于比较不同场景下的模型性能。
早期基准如HotpotQA[Yang et al., 2018]和Natural Questions[Kwiatkowski et al., 2019],为多步推理评估奠定了基础,但它们的核心聚焦于信息检索,而非工具操作。随着AI系统复杂度的提升,评估基准也向更复杂的多模态方向发展。
近期,Liu等人[2023]在AI智能体评估领域的研究强调,评估不仅需关注任务完成情况,还应涵盖效率、稳健性和安全性等维度。这种整体评估方法与我们的全面评估方法论高度一致。
Zhang等人[2023]关于自动化评估指标的研究,为本文这类大规模比较研究提供了可能。评估方法的这些进展,使得对多个模型和方法进行严谨的实证比较成为现实。
三、方法
我们的方法核心是使用监督微调(SFT)和Hugging Face TRL库对facebook/opt-350m模型进行微调。
拥有3.5亿参数的OPT-350M模型,在模型能力与效率之间实现了战略性平衡。我们使用ToolBench数据集对该模型进行训练,该数据集包含来自RapidAPI Hub的16000多个真实世界API,以及对应的指令-解决方案对。
训练过程在Amazon SageMaker上进行,使用的实例类型为ml.g5.8xlarge。我们的监督微调方法重点在于教会模型以ToolBench规定的标准格式生成响应,该格式包含“思考-动作-动作输入”模式,这种模式能支持系统的工具操作和推理过程。
3.1 实验设定
ToolBench数据集是一个大型多轮指令数据集,需要转换为结构化的训练序列。我们将系统提示、用户查询和助手响应通过适当的分隔符连接起来,构建出连贯的指令遵循样本,以适用于基于TRL框架的监督微调。数据转换脚本由Amazon Q生成。转换完成后,训练数据集包含187542个供模型学习的样本。
我们对facebook/opt-350m模型进行了单轮epoch微调,并采用了精心优化的超参数。关键配置如下:
- 学习率:采用保守的2e-5,并设置100步热身,确保模型适应稳定;
- 有效批次大小:通过4步梯度累积实现32的有效批次大小,从而提供更可靠的梯度估计;
- 梯度裁剪:采用激进的梯度裁剪,设置
max_norm =0.3; - 其他技术:采用FP16混合精度和梯度检查点,以处理复杂的工具链序列;
- 优化器:使用带0.01权重衰减的AdamW优化器,该优化器能有效处理工具特定令牌产生的稀疏梯度,同时防止过拟合。
这种“高学习效率、高稳定性”的配置实现了最优平衡,使得模型仅通过单轮epoch就能从ToolBench的高质量样本中提取最大信息量。
该方法促使模型学习具有泛化性的工具使用模式,而非简单记忆训练数据,最终证明:通过精心的超参数调优,小型语言模型(SLM)在特定任务上完全可以超越规模大得多的模型。
四、评估框架
ToolBench 是我们的主要评估框架,它能对各种工具操作场景进行全面评估。
测试环境包含 Python 3.9 和 PyTorch。为确保公平比较,所有模型均在相同的计算条件下进行评估。我们采用 ToolEval 作为自动评估框架,该框架使用 ChatGPT 作为评估器,以评估模型的工具使用能力。该框架包含两个核心指标:
- 通过率评估(Pass Rate Evaluation): 在有限的 API 调用预算(指允许模型调用 API 的最大次数)内,衡量成功完成指令的比例。评估器会根据任务完成的预定义标准,判断模型的解决方案是否能充分满足给定指令的要求。
- 胜率评估(Win Rate Assessment): 通过评估信息丰富度、事实准确性、推理质量、里程碑达成情况、API 探索效率和成本效益等因素,比较不同模型的解决方案质量。
该基准测试包含六个测试类别,共 1100 个测试查询,具体如下:
| 测试类别 | 查询数量 | 场景说明 |
|---|---|---|
| G1-instruction | 200个 | 涉及模型训练过程中未接触过的指令类型的未见过指令的单工具场景 |
| G1-category | 200个 | 涉及未见过的类别的单工具场景 |
| G1-tool | 200个 | 涉及模型训练中未学习过的API工具的完全未见过工具的单工具场景 |
| G2-instruction | 200个 | 类别内多工具场景 |
| G2-category | 200个 | 跨类别多工具场景 |
| G3-instruction | 100个 | 集合内多工具场景 |
4.1 模型配置
我们微调后的 OPT-350M 模型与基准模型(包括 ChatGPT-CoT、ToolLLaMA-DFS、ToolLLaMA-CoT 和 Claude-CoT)使用相同的推理参数进行评估,具体参数如下:
- 最大序列长度(Maximum sequence length): 8192 个令牌;
- 批次大小(Batch size): 每设备 8 个;
- 温度系数(Temperature): 0.1(用于控制生成文本的随机性,值越低生成结果越确定,此处设置低温度以保证结果可复现);
- 最大推理迭代次数(Maximum reasoning iterations): 每个查询 10 次。
4.2 ToolEval 评估流程
所有模型的响应均通过基于 ChatGPT 的评分进行自动评估,每个查询至少进行 4 轮评估,并采用多数投票(majority voting,指以多轮评估结果中占比最高的结论作为最终评估结果)确保评估可靠性。评估器会根据标准化标准对解决方案进行评估,无需执行实际 API 调用。每完成 1000 次迭代就进行一次评估,并启用全面日志记录。
4.3 质量保证
所有模型均在相同的查询集上测试,且评估条件保持一致。通过置信区间分析验证统计显著性,同时通过自动记录所有评估决策和推理轨迹,确保评估一致性。
评估基础设施启用 4 个数据加载器工作进程(dataloader workers),同时采用内存固定(memory pinning)技术——这种技术能将数据固定在内存特定区域以加速数据传输,以此高效处理涵盖六个类别的 1100 个测试查询。
五、结果
我们的实验评估表明,微调后的 OPT-350M 模型在所有测试类别中均表现出色。下表对模型的综合性能进行了分析,并与已有的基准模型进行了比较。

表 1:整体性能比较:通过对比不同模型的参数、通过率及差距,Our SLM(350M 参数)通过率达 77.55%,远超 ToolLLaMA-DFS、ChatGPT-CoT 等大参数模型(参数 7B-52B),这些模型通过率仅 16%-30%,Gap 均为负,体现 Our SLM 小参数却表现更优

表 2:各测试类别性能。通过对比不同任务类别(G1-G3)中各模型得分:Ours 在各分类下得分(74.5-80.5)均远超 TLLM-D、GPT-C 等模型,平均得分 Ours 达 77.6,大幅领先其他模型(最高仅 30.2),凸显 Ours 的性能优势

图1:我们的小型语言模型(SLM)与其他模型在6个任务上的性能雷达图
我们的实验结果揭示了以下几个关键发现:
- 我们拥有 3.5 亿参数的模型实现了 77.55%的出色整体通过率,以 47%至 75%的差距显著优于所有基准模型。这一结果从根本上挑战了“复杂推理任务需要大型模型”的传统认知。尤其值得注意的是,ChatGPT-CoT(1750 亿参数)的通过率仅为 26.00%,而我们的模型规模远小于它,性能却提升了 2.98 倍。
- 尽管我们的小型语言模型(SLM)的参数数量比基准模型少 20 至 500 倍,但它在所有评估类别中均实现了更优性能。这一参数效率突破表明,定向微调可以克服传统的模型缩放限制。参数性能比(指单位参数带来的性能提升,用于衡量参数利用效率)的提升标志着范式转变—— 从“暴力缩放”(指单纯通过增加参数数量提升性能的传统方法)转向“智能优化”,证明通过精心设计的训练策略,仅用有限的计算资源就能实现卓越性能。
- 该模型在所有测试类别中均保持了稳定性能,成功率在 74%至 80.5%之间,表明其在各种工具操作场景中具有出色的可靠性。这种稳定性意味着我们的方法成功让模型学习到了具有泛化性的推理模式,而非针对特定任务的优化。不同复杂度任务间的性能差异较小(差距仅 6.5%),这表明模型已扎实掌握了工具使用的基本原理。
3.5 亿参数模型实现 77.55%通过率的这一组合,不仅在训练和推理阶段均实现了大幅成本节约,还保持了最先进的性能。这种“成本-性能”优势使组织能够部署复杂的 AI 能力,而无需承担高昂的基础设施投入,从而让先进的工具调用智能体(agent)变得更加普及。 其经济意义不仅限于成本降低,还能支持以往因计算预算限制而无法实现的全新部署场景。
这些结果确立了一种新范式:资源受限的环境也能获得高性能 AI 能力。我们的研究表明,通过战略性的模型设计和定向训练,无需大量计算资源就能实现出色的工具使用性能。这一突破消除了 AI 应用的传统障碍,使复杂推理系统能够在各类组织场景中广泛部署。效率、性能与可访问性的结合,构成了独特的贡献,重新定义了先进 AI 系统大规模部署的可行性边界。
六、讨论
6.1 为何专用小型语言模型(SLM)优于大型通用模型
我们的研究结果表明,在工具调用应用中,任务特定优化的性能【从根本上】优于基于规模的方法。 基准模型(ChatGPT-CoT、ToolLLaMA-DFS、ToolLLaMA-CoT、Claude-CoT)均在广泛的通用数据集上训练,这些数据集缺乏有效 API 操作所需的特定工具调用模式和推理结构。尽管这些基准模型在通用语言任务上表现出色,但在工具使用必需的“格式精确性”和“多步推理链”方面却存在不足。
我们拥有 3.5 亿参数的模型之所以性能更优, 源于三个关键因素:参数效率、行为聚焦和评估对齐。
大型语言模型存在“参数稀释”问题(指大型模型中大部分参数用于通用语言理解,而非特定任务所需能力,导致特定任务性能提升不明显)—— 其绝大多数参数被优化用于通用语言理解,而非工具操作。而我们的小型语言模型(SLM)将所有能力集中在工具调用行为上,实现了更高效的参数利用;相比之下,基准模型的数十亿参数反而成为负担而非优势。
6.2 最优参数-任务对齐
研究表明,3.5 亿参数是工具调用任务的“战略最佳平衡点”。这一规模既能提供足够的能力来学习 API 交互、参数映射和错误处理等模式,又避免了因模型过于复杂而导致的“输出不一致”问题。
该参数规模与工具调用任务的结构化需求高度匹配,有效规避了“欠拟合”(模型能力不足)和“过拟合”(模型过度适应训练数据细节)的风险。工具调用需要的是精确的结构化推理,而非开放式的语言生成。通过定向微调,模型被塑造成“工具调用领域专家”,使其在 API 选择、参数指定等关键决策上更加准确,从而直接提升了任务通过率。
6.3 局限性与潜在问题
尽管成果显著,但本研究仍存在以下局限性:
- ToolBench 之外的泛化能力:模型是针对 ToolBench 评估标准优化的,其在其他工具调用框架或真实世界复杂 API 生态系统中的表现仍需验证。训练数据与评估指标的强耦合,使其在新领域的性能存在不确定性。
- 上下文理解能力有限:3.5 亿参数的规模虽然对工具调用是最优的,但可能限制模型理解复杂上下文或处理“模糊用户请求”的能力——这类请求在选择工具前需要更复杂的推理。在深度嵌套的对话场景中,大型模型可能仍具优势。
- 复杂工具生态系统的扩展性:评估聚焦于受控的 API 集合,而真实应用通常涉及数百个相互关联的工具, 这些工具存在复杂的依赖关系、认证流程和错误处理场景,可能超出模型已学习的模式范围。
- 训练数据依赖性:模型性能本质上受限于 ToolBench 训练数据的质量和覆盖范围。训练集中的偏差、缺口或过时模式,会直接影响模型的工具调用能力,可能导致其在遇到新型 API 设计时表现“脆弱”。
- 计算资源需求:尽管模型规模较小,但微调过程仍需大量计算资源和高质量数据,这可能限制资源有限的组织采用该方法。
- 长期维护挑战:随着 API 演进和新工具出现,模型的“专业化特性”可能需要频繁重新训练以维持性能;相比之下,大型通用模型可能通过 少样本学习 (通过少量示例快速适应新任务的能力)更快地适应新型工具。
6.4 对未来研究的启示
这些发现表明,对于特定应用,“中等规模的领域特定优化”是替代单纯追求模型规模(“缩放定律”范式)的可行路径。
未来研究应探索专用小型语言模型(SLM)的泛化边界,并开发“混合方法”——将定向模型的高效性与大型系统的适应性相结合。不同专业领域可能存在不同的“最优参数规模”, 因此有必要系统研究“任务复杂度”与“模型能力”之间的关系。
七、结论
本研究证明,通过定向训练策略,小型语言模型(SLM)在智能体工具调用性能上能够显著超越大型模型。
微调后的 OPT-350M 模型实现了 77.55% 的通过率,这一突破为高效 AI 部署提供了新可能——证明 通过精心设计和领域特定训练,能够克服传统的“参数-性能权衡”。
这一成果对企业 AI 应用具有重要意义:它表明组织无需承担高昂的基础设施成本,就能部署复杂的 AI 能力。本研究为通过提高可访问性、降低成本以实现 AI 大规模部署提供了新路径。
未来研究应探索该方法在不同领域的泛化能力,并深入探究“定向微调对小型模型有效性”的理论基础。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14188
