关键词:Small Language Models 小语言模型、 Function Calling 函数调用、Edge Devices 边缘设备、Direct Preference Optimization 直接偏好优化、 Hybrid Fine-Tuning 混合微调
近期,一项名为 《TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices》 的研究,系统性地揭示了小型语言模型在边缘设备上执行“智能体任务”——即理解和调用工具、API、函数——的能力极限与优化路径。

- Small Language Models for Agentic Systems: A Survey of Architectures, Capabilities, and Deployment Trade-offs
- https://arxiv.org/pdf/2510.03847
- 6000 字,阅读约 20 分钟
该研究针对边缘设备上运行自主智能体任务的需求,系统评估了参数量低于 30 亿的小型语言模型在函数、工具及 API 调用方面的实际效能。
研究基于伯克利函数调用排行榜框架,对 TinyAgent、TinyLlama、Qwen 和 xLAM 等多个模型家族进行了全面评测,涵盖简单、多重、并行及多轮对话等多种复杂场景。
通过对比监督微调、参数高效微调、基于强化学习的优化以及直接偏好优化等策略,研究发现模型规模对性能具有决定性影响:中等规模模型(1–3B 参数)在整体准确率上达到 65.74%,多轮交互任务中取得 55.62% 的准确率,显著优于参数量低于 1B 的超轻量模型。

图 1 | TinyLLM 提出的处理流程图。该流程图清晰呈现了 TinyLLM 研究的核心工作流,从数据端到模型端形成完整闭环。数据环节通过多步骤筛选与优化保障训练数据质量,剔除低质量数据并转化可用信号;模型环节则提供多元微调路径,可根据边缘设备需求与计算资源,灵活选择不同微调方式,为后续在边缘设备实现高效智能体任务奠定基础。
研究进一步提出并实践了一种基于 AgentBank 数据的直接偏好优化训练流程,通过将监督微调数据转化为偏好对,有效提升了模型的输出质量与对齐稳定性。
实验表明,混合优化策略能够在保持模型轻量化的同时,显著增强其在边缘环境中的推理可靠性、上下文维持能力与执行准确性。 这项工作为在资源受限、注重隐私与低延迟的边缘设备上部署高效、自主的 AI 智能体提供了实证依据与方法路径,并指出了未来在跨语言、多模态调用与持续优化方面的研究方向。
本文目录
- 一、云端桎梏:为何我们需要能“用工具”的边缘 AI?
- 二、研究全景:目标、路径与三大贡献
- 三、庖丁解牛:如何评估一个 AI 智能体的“动手能力”?
- 3.1 BFCL 的五大“考场”
- 3.2 判决的“三重标准”
- 四、核心创新:一套为 SLM 量身定制的“强化训练法”
- 4.1 第一式:常规微调——打好基础
- 4.2 第二式:基于强化学习的优化——学会应变
- 4.3 第三式:混合优化策略——博采众长
- 4.4 创新实践:打造专属的 DPO 数据管道
- 五、性能比武:谁才是边缘设备的“最强王者”?
- 5.1 总体战况:规模即王道
- 5.2 细分场景:各有千秋
- 六、深度讨论:边缘 AI 智能体的平衡艺术
- 6.1 规模与性能的权衡是核心
- 6.2 优化策略需对症下药
- 6.3 评测必须多维立体
- 七、未来之路:从实验室到千万终端

一、云端桎梏:为何我们需要能“用工具”的边缘 AI?
大型语言模型的崛起,让我们习惯了与 ChatGPT 等对话 AI 的自然交互。当这些模型被赋予“智能体”能力——即能理解指令、制定计划、调用外部工具(如计算器、搜索引擎、API)来完成任务时,其潜力被无限放大。
然而,一个残酷的现实是:目前绝大多数强大的智能体系统,都依赖于参数量超过 70 亿甚至上千亿 的云端大模型。这带来了五大核心痛点:
| 问题类别 | 具体描述 |
| :— | :— |
| 高延迟 | 每次推理都需要网络往返,严重影响实时交互体验,尤其不适用于延迟敏感型场景。 |
| 强联网依赖 | 完全依赖互联网连接,在无网或弱网环境下(如边缘设备离线场景)功能会直接瘫痪。 |
| 隐私与安全风险 | 用户敏感数据需上传至云端服务器,存在数据泄露、被未授权访问的风险。 |
| 持续云成本 | 长期使用过程中,云端 API 调用、算力占用等会产生持续的费用支出。 |
| 高昂的 GPU 成本 | 云端大语言模型推理依赖高性能 GPU 硬件支持,其采购与维护成本高昂。 |
在自动驾驶、工业物联网、个人移动设备等延迟敏感、隐私关键或资源受限 的场景中,这些痛点成为了规模化应用的“拦路虎”。
因此,研究界将目光投向了参数量小于 30 亿的小型语言模型。核心问题随之而来:在“瘦身”之后,SLM 是否还能具备可靠的智能体能力,尤其是在最核心的 “函数调用” 任务上?
二、研究全景:目标、路径与三大贡献
这项研究的目标清晰而务实:
- 验证可行性:证明小于 3B 参数的 SLM 能够胜任工具/API 调用等智能体任务。
- 建立并超越基线:复现并评测 TinyAgent 等现有工作,并训练出性能更优的 SLM。
- 迭代优化与部署:通过系统性的优化比较,产出可用于实际边缘部署的候选模型。
为实现目标,研究者们构建了一套完整的方法论闭环,并做出了三大核心贡献:
- 贡献一:全面的性能基准测试。首次系统性地评估了多款主流小型语言模型在标准函数调用任务上的表现,清晰揭示了模型规模、任务复杂度与边缘设备性能之间的权衡关系。
- 贡献二:创新的 DPO 训练管道。设计了一套实用的、基于直接偏好优化的训练流程,能够将常规的监督微调数据转化为“优劣对比”数据对,以更低的成本实现对模型输出的精准“对齐”。
- 贡献三:详尽的部署权衡分析。对模型的延迟、准确性、资源消耗进行了多维度的量化分析,为开发者在真实约束环境下构建快速、私有、高效的自主智能体提供了宝贵的决策指南。
三、庖丁解牛:如何评估一个 AI 智能体的“动手能力”?
要比较不同模型的智能体能力,首先需要一个公平、全面、可复现的评测体系。研究团队经过对比,选择了伯克利函数调用排行榜作为核心评测框架。

图 2 | 评估数据集的数据分布。此分布图直观反映数据集的任务覆盖与权重设计,约 60% 数据聚焦抽象语法树(AST)相关任务,凸显对函数调用语法正确性的重视;同时兼顾执行验证(如 REST Exec 等)、跨语言支持(SQL、Java 等)与对话集成(Chatting Capability),且设置相关性检测任务保障模型安全部署,多元分类使评估能全面检验小型语言模型在边缘设备的函数调用能力。
BFCL 的优势在于其 “即插即用” 的特性,能够快速适配不同架构的模型,并提供标准化的输出。
3.1 BFCL 的五大“考场”
BFCL 从五个维度,由浅入深地考察模型的函数调用能力:
- 简单函数调用:模型阅读单个函数的文档,生成一个正确的调用代码。
- 多重函数选择:从 2-4 个候选函数中选择正确的并生成调用。
- 并行函数调用:从一个查询中,多次调用同一个函数。
- 并行多重函数调用:处理涉及多个函数的复杂查询,决定每个函数需要调用多少次。
- 相关性检测:当没有合适函数可用时,模型应能“拒绝作答”。
3.2 判决的“三重标准”
模型的输出将接受三重检验:
- AST 准确性:生成的代码在语法上是否正确。
- 可执行性评估:生成的代码在语义上是否可运行并产生正确结果(在可行的情况下)。
- 总体准确率:上述所有子类别的未加权平均准确率。
此外,评测还区分 “提示式” 与 “原生式” 函数调用模型,包含多轮对话的评测指标,并考虑延迟、成本等实际运营因素。
这套严谨的框架,为后续的性能“比武”搭建了坚实的擂台。
四、核心创新:一套为 SLM 量身定制的“强化训练法”
如果说评测是指挥棒,那么如何提升 SLM 的智能体能力,才是真正的技术内核。这篇论文的核心创新,在于提出并实践了一套 “参数驱动”的优化策略组合拳。
4.1 第一式:常规微调——打好基础
就像运动员要先掌握标准动作,模型首先通过监督式微调在高质量的“轨迹数据”上学习。
数据来源包括专家标注、大模型生成的数据、自我探索以及多智能体协作的产物。通过环境奖励、人工规则或模型评估进行数据过滤,保留高质量部分。有趣的是,一些失败或低质量的轨迹也会被保留,作为“反面教材”来提升模型的鲁棒性。
微调技术既包括全参数微调,也包含更高效的 PEFT 方法。然而,研究团队发现,仅靠 SFT 效果提升有限,尤其在处理复杂的多函数任务时容易“力不从心”。
4.2 第二式:基于强化学习的优化——学会应变
要让模型在复杂、动态的交互中表现出色,需要引入强化学习。这又分为两种路径:
- 基于奖励函数的优化:使用 PPO 等算法,通过环境反馈、模型评分或复合奖励信号来训练模型。这种方法在处理复杂交互时表现出色,但奖励函数设计困难且计算成本高昂。
- 基于偏好对齐的优化:这正是本文的亮点之一——采用直接偏好优化。它绕开了复杂的强化学习循环,直接使用“好答案 vs 坏答案”的成对数据来优化模型,训练更稳定、样本效率更高。但它极度依赖偏好数据的多样性与质量。

图 3 | 直接偏好优化流程。数据预处理(Data Preprocessing)→基础小型语言模型(Base SLM)→直接偏好优化(DPO)训练流程(DPO training pipeline)→性能评估框架(Performance Framework),采用伯克利函数调用排行榜(BFCL)→微调后的小型语言模型(Finetuned SLM)。
4.3 第三式:混合优化策略——博采众长
单一方法总有局限,研究者探索了将 SFT 与 RL 结合的混合策略。通常,先用 SFT 进行初始化,打好基础,再用 RL 进行精细化微调。有些方法还会进行多轮 SFT-RL 循环。
这种混合方法平衡了 SFT 的稳定性与 RL 的适应性,但相应地也增加了计算成本和方案设计的复杂度。
4.4 创新实践:打造专属的 DPO 数据管道
理论需要实践落地。为了获得高质量的 DPO 训练数据,研究团队进行了一项精巧的工作:
- 数据选择:他们选取了 AgentBank 作为数据源。
- 数据转换:将已有的 SFT 数据(单一样本)转换为 DPO 所需的“优劣对”。具体做法是:将 AgentBank 中的标准答案作为 “优选”,使用一个未经充分调优的 TinyLlama 模型生成回应作为“拒绝”。
- 人工验证:为确保“拒绝”样本的质量确实更差,团队进行了人工抽检确认。
- 持续扩展:目前已成功转换了 ALFRED 数据集,并正在对更复杂的 ALFWorld 数据集进行同样的处理,为大规模 DPO 训练做准备。
这套自建的 DPO 管道,是本研究在方法学上的一个关键创新点。
五、性能比武:谁才是边缘设备的“最强王者”?
经过一系列优化后,各款 SLM 在 BFCL 擂台上的表现如何?研究结果绘制了一幅清晰的性能图谱。
5.1 总体战况:规模即王道

表 1 | 总体准确率(伯克利函数调用排行榜)。该表格展示了不同小型语言模型在伯克利函数调用排行榜(BFCL)中的总体表现,包含模型名称(Model)、总体准确率(Overall Acc)、实时执行准确率(Live)、非实时执行准确率(Non-live)、多轮交互准确率(Multi-turn)五个维度,覆盖 xLAM、Qwen、TinyLlama、TinyAgent 等系列模型。表格清晰呈现模型规模与性能的强相关性:1-3B 参数的中规模模型(如 xLAM-2-3b-fc-r)总体准确率达 65.74%,多轮准确率 55.62%;而 1B 以下超紧凑模型(如 TinyLlama-1.1B)总体准确率仅约 19.7%,多轮任务完全失败,为边缘设备选择适配模型提供关键数据支撑。
结论一目了然:
- 中型 SLM 表现出色:参数量在 1B-3B 范围内的模型(如 xLAM-3B、Qwen-4B)是当前的“甜点区间”。它们在所有评测类别中都显著领先,总体准确率最高达 65.74%。
- 多轮对话是试金石:在需要跨轮次保持上下文的多轮评测中,模型间差距被急剧拉大。表现最佳的 xLAM-3B 达到 55.62%,而其他模型断崖式下跌,1B 以下模型更是接近为零。这证明 多步推理和长程上下文依赖是小型模型的巨大挑战。
- 超紧凑模型尚不成熟:以 TinyLlama、TinyAgent 为代表的 ~1.1B 参数模型,总体准确率不足 20%,在多轮任务上交了白卷。这表明, 在未做针对性深度优化前,极致的模型压缩尚无法满足智能体任务的基本可靠性要求。
5.2 细分场景:各有千秋

表 2 | 实时准确率(记录数据)。表格记录各模型实时执行场景下的准确率,列含评估指标(Metric)及 Qwen3(Q3)、xLAM-2(x2)、TinyLlama(TL)、TinyAgent(TA)系列不同参数模型的表现,指标涵盖非实时总体准确率、抽象语法树(AST)汇总准确率及各类 AST 任务(单函数、多函数、并行函数等)准确率。表格凸显中规模模型在实时执行中的优势:xLAM-2-3b-fc-r 并行 AST 准确率 88.89%,Qwen3-4B 单函数 AST 准确率 84.50%;超紧凑模型在 Python、JavaScript 等 AST 子任务中成功率近乎为 0,仅多函数 AST 任务表现异常(100%),反映其难以应对复杂实时函数调用场景。
实时执行:考验生成代码的真实运行能力。
* 中型 SLM 依然稳健,xLAM-3B 实时准确率达 81%。
* 而超小模型在 Python/JavaScript 等具体语言的调用上几乎无法成功。

表 3 | 非实时准确率(抽象语法树级别)。该表格呈现模型在非实时场景下抽象语法树(AST)级别的准确率,包含评估指标(Metric)及各系列模型表现,指标覆盖非实时总体准确率、AST 汇总准确率、多语言(Python/Java/JavaScript)单函数 AST 准确率、多函数 / 并行函数 AST 准确率及无关性检测准确率。表格揭示模型在语法正确性上的差异:Qwen3-4B Python 单函数 AST 准确率 95%,xLAM-2-3b-fc-r 多函数 AST 准确率 92%;超紧凑模型仅无关性检测准确率 100%,其他 AST 任务全失败,证明模型规模对语法级函数调用能力的关键作用,也体现非实时评估对语法正确性检验的有效性。
非实时:仅检查代码语法正确性。在此项目上,中型 SLM 优势更大,xLAM-3B 和 Qwen-4B 均超过 88% 的准确率。这显示中型模型已能很好掌握多种编程语言的语法规则。

表 4 | 多轮交互准确率。表格展示各模型多轮交互场景的准确率,列含模型名称(Model)、总体多轮准确率(Overall)及基础场景(Base)、缺失函数(Miss Func)、缺失参数(Miss Param)、长上下文(Long Ctx)四种细分场景的准确率,全面反映模型多轮对话中的函数调用能力。表格清晰体现多轮任务对模型的高要求:xLAM-2-3b-fc-r 总体多轮准确率 55.62%,长上下文场景 41%;参数越小模型表现越差,Qwen3-0.6B 总体仅 1.38%,超紧凑模型全零分,说明多轮交互需模型具备强上下文 retention 能力,中规模模型更适配边缘设备多轮智能体任务。
六、深度讨论:边缘 AI 智能体的平衡艺术
综合所有结果,我们可以提炼出关于边缘 AI 智能体发展的几个关键认知:
6.1 规模与性能的权衡是核心
超紧凑模型(<1B)目前尚难担大任,而 1B-3B 的“中型”SLM 已展现出惊人的实用性。在边缘部署中,不应盲目追求极致的“小”, 而应瞄准“性能与效率的黄金平衡点”。
6.2 优化策略需对症下药
- SFT 是基础,但天花板明显。
- DPO 等偏好对齐方法能有效提升输出稳定性和质量,且相对高效。
- 基于奖励的 RL 能力更强,但计算代价高。
- 混合策略(如 SFT+DPO)是目前最有前景的方向, 能在稳定性、适应性和效率间取得较好平衡。
6.3 评测必须多维立体
语法正确是底线,但真实世界的可执行性、安全拒绝的能力、跨语言支持以及对话的连贯性,共同构成了一个“可靠智能体”的完整画像。BFCL 这类综合评测框架至关重要。
七、未来之路:从实验室到千万终端
本研究不仅是一次全面的性能评估,更为边缘智能体的发展绘制了一份清晰的路线图:
- 规模化 DPO 训练:在更多样化的数据集上扩展 DPO 训练,进一步提升模型的通用对齐能力。
- 优化混合训练循环:设计更精巧的 SFT-RL 迭代周期,在降低计算开销的同时保持模型灵活性。
- 拓展评测边界:将评测涵盖跨语言、多模态的函数调用任务,模拟更真实的复杂环境。
- 进行长期追踪:建立纵向评估机制,跟踪技术进展,确保研究的可复现性与可比性。
随着《TinyLLM》这项研究的展开,一个清晰的未来图景正在显现:强大、可靠且私密的 AI 个人助手,完全可以在你的手机、汽车或智能家居设备中本地运行。
它不再受制于网络,不再担忧隐私泄露,响应如光速般迅捷。这项研究通过严谨的评测证明,参数量在 1-3B 级别、经过精心优化的中型小型语言模型, 已经具备了在边缘端处理复杂智能体任务的坚实潜力。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20262
