关键词:Agent Skill 框架、小语言模型、上下文工程、工业应用、GPU 效率
近年来,以 GitHub Copilot、LangChain 等为代表的 Agent Skill 框架已成为大语言模型应用的重要范式。该框架通过精心设计的“静态技能库”,让模型在推理过程中渐进式地获取相关技能上下文,从而有效减少幻觉、提升工具使用的准确性。
然而,这一范式高度依赖 GPT、Claude 等闭源大模型的强大能力。在金融、军事等对数据安全和成本预算敏感的工业场景中,持续调用外部 API 往往并不可行。
由此,一个核心问题浮现:小语言模型能否同样从 Agent Skill 框架中获益?

- 论文标题:Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments
- 论文链接:https://arxiv.org/pdf/2602.16653
- 概览:5400 字,阅读约 18 分钟
来自卢森堡大学、Foyer S.A.、普林斯顿大学及巴黎-萨克雷大学的研究团队近期发表论文,对上述问题进行了系统性探索。他们不仅为 Agent Skill 过程给出了严格的数学定义,还通过一系列实验,揭示了不同规模小语言模型在该框架下的表现、效率与局限性。本文将深入解读这项工作的核心创新、方法细节与实验发现,并尝试勾勒在工业环境中部署 Agent Skill 的可行路径。
本文目录
- 一、相关工作
- 1.1 上下文工程的演进
- 1.2 Agent Skill 的兴起与小语言模型研究的空白
- 二、核心创新点
- 三、方法细节:Agent Skill 的数学定义与实验设计
- 3.1 Agent Skill 的 POMDP 建模
- 3.2 实验方法:三种上下文工程策略
- 3.3 数据集
- 3.4 小语言模型选择
- 3.5 评价指标
- 四、实验结果与讨论
- 4.1 主要性能:技能回报在小语言模型中显现
- 4.2 极小型模型难以胜任技能路由
- 4.3 技能库规模扩大:模型表现呈现“规模效应”
- 4.4 后验探索:聊天历史与技能同义词
- 五、讨论与局限性
- 结论

一、相关工作
1.1 上下文工程的演进
Agent Skill 框架本质上是一种高级的上下文工程。随着大语言模型零样本/少样本泛化能力的涌现,研究人员开始探索如何在部署后通过更便捷、高效的方式调整模型行为。
与传统的检索增强生成不同,上下文工程直接利用模型的上下文学习能力,动态选择最相关的信息,从而避免了向量数据库检索可能带来的信息刚性。
然而,大语言模型在处理超长上下文时存在明显的“注意力局限”,即“Lost in the Middle”现象。模型对位于上下文中间位置的信息利用效率,远低于开头和结尾:
| 现象特征 | 具体表现 |
| :— | :— |
| 关键信息位置影响显著 | 若关键信息位于上下文首部或尾部,即使上下文极长,模型在问答、信息提取等任务中表现仍接近最优。 |
| 中间位置性能骤降 | 若关键信息落在上下文中部,模型准确率会出现断崖式下跌;且上下文越长,性能衰减越明显。小语言模型受此影响比大语言模型更严重。 |
| 与宣称能力无关 | 该现象不因模型标称支持“长上下文”而缓解,是当前主流大语言模型普遍存在的共性局限,反映了其注意力机制在长程中间信息捕获上的结构性瓶颈。 |
为此,研究者提出了多种上下文工程设计,例如:
| 设计方法 | 核心思路 | 相关研究/技术 |
| :— | :— | :— |
| 分层多智能体系统 | 搭建层级化智能体架构,拆解复杂任务并分层处理,提升上下文连贯性与复杂决策能力。 | Luo et al., 2025 |
| 路由步骤 | 设计智能输入路由机制,将不同任务输入定向分配至适配的专属智能体,优化任务匹配度。 | Yue et al., 2025 |
| 复杂的对话历史管理 | 精细化管控多轮对话历史,结合上下文边界约束,规避信息冗余与“上下文衰退”问题。 | – |
| 异构记忆模块集成 | 融合向量数据库、知识图谱等异构模块,构建智能体长短时记忆体系,强化上下文信息利用。 | Zhang et al., 2024b; Hu et al., 2025 |
这些技术共同提升了模型的上下文连贯性、个性化学习和复杂任务决策能力。
1.2 Agent Skill 的兴起与小语言模型研究的空白
Agent Skill 概念被提出后,迅速被 VSCode、OpenAI、LangChain 等广泛采纳。
- Ye 等人将其视为一种可演化的技能,提出了“元上下文工程”框架来自动重写和优化技能描述。
- Li 等人则发现,配备技能库的单智能体系统在许多推理任务上能达到与多智能体系统相当的准确率,同时大幅降低 Token 消耗和延迟。
- 此外,DeepAgents 等开源库的涌现,以及关于技能安全性的讨论,都表明 Agent Skill 正成为智能体构建的主流范式。
然而,现有实践默认使用需要 API 调用的闭源大模型。少量研究指出,小模型在技能路由上往往表现不佳,但对于 Agent Skill 框架在小模型上的可行性、部署层面的效率增益(如显存占用、端到端延迟)仍缺乏定量证据。 本论文正是为了填补这一空白。
二、核心创新点
本工作的创新性主要体现在以下三个方面:
- 首次为 Agent Skill 过程建立严格的数学定义:研究将 Agent Skill 抽象为带信息获取动作的部分可观测马尔可夫决策过程(POMDP),从最优控制理论的角度,揭示了渐进式披露(progressive disclosure)行为的内在原理。这首次从理论上证明,Agent Skill 中“按需逐步披露信息”的策略并非工程技巧,而是最优控制下的必然行为。
- 设计了面向 SLM 的系统性评估方案:评估不仅关注任务准确率和技能选择准确率,还引入了 GPU 显存时间(GB-min) 这一实用指标,以更准确地反映工业部署中的实际算力成本与效率。
- 在真实工业数据集上进行深入的后验探索:基于 InsurBench 数据集,研究分析了聊天历史的影响、技能关键词的替换效应等,为实际系统部署提供了可操作的指导。
三、方法细节:Agent Skill 的数学定义与实验设计
3.1 Agent Skill 的 POMDP 建模
作者将 Agent Skill 系统建模为一个在部分可观测环境中运行、带有信息获取约束的控制器。每个技能 k 用一个三元组 (d_k, π_k, r_k) 表示:
* d_k:技能的文本描述(名称与说明)。
* π_k:技能内部的执行策略(选项级流程)。
* r_k:引用机制,可揭示额外的技能相关上下文和工具。
整个系统被形式化为一个 POMDP (S, O, A, T, Ω, R, γ):
* 状态 s ∈ S:隐藏的任务状况,包括用户意图、任务进度及未检索的环境事实。
* 观测 o ∈ O:智能体在时刻 t 可访问的信息,如当前用户消息、可用技能列表等。
* 动作 a ∈ A:包括技能选择、上下文获取(reveal)、技能执行、环境/工具调用。
* 信念 b:智能体对当前状态的后验分布,反映其不确定性。
* 转移函数 T 和观测模型 Ω** 分别描述状态变化与观测生成。
核心洞见:当智能体不确定性高(信念分散)时,值得付出额外成本去揭示相关技能上下文;当信念集中时,直接执行技能更为经济。这种渐进式披露行为与有限时域 POMDP 的最优价值函数是分段线性凸函数这一经典结论相吻合(Kaelbling et al., 1998):不同的信念区域对应不同的最优行动策略。
3.2 实验方法:三种上下文工程策略
为评估 Agent Skill 的效果,研究在每个任务中构建了一个临时技能库:从公开技能中心采样 4–5 个干扰技能,与真实所需技能混合。这种设计模拟了真实场景中技能信息冗余、噪声显著的挑战——模型不仅需识别正确技能,还需在语义、结构相似的干扰项中完成精准区分。
实验比较了以下三种策略:
| 策略类型 | 核心机制与特点 |
| :— | :— |
| 直接指令 (DI) | 仅向模型提供原始用户输入,不附加任何技能说明。
• 优点:完全依赖模型参数化知识,零上下文开销,响应最快。
• 缺点:对冷门工具、新API或领域专有操作缺乏支持,泛化能力弱,易在知识盲区失效。 |
| 全技能指令 (FSI) | 一次性注入全部可用技能的完整描述,强制模型从中匹配。
• 优点:信息完备,适合技能集小且差异显著的场景。
• 缺点:长文本易导致注意力分散,尤其当干扰技能与目标技能共享高频动词时,模型易被表面语义误导而选错技能。 |
| Agent Skill 指令 (ASI) | 采用“判断—检索—生成”三阶段轻量流程:先判断任务是否需要外部技能支持;若需要,则精准检索最相关的技能片段;最后基于该片段生成响应。
• 优点:解耦了知识调用与推理过程,兼顾准确性与可控性。实测在跨领域与低资源任务中,准确率平均提升 23.6%,推理延迟仅增加 11%。 |
3.3 数据集
实验使用了三个数据集,其概况如下表所示。

表 1 | 评估数据集概述。涵盖 IMDB、FiNER、InsurBench 三大数据集,覆盖情感分类、金融命名实体识别、保险理赔三类任务,难度递增。其中 InsurBench 为闭源工业数据集,避免了数据污染问题,是验证模型工业实用性的关键。
3.4 小语言模型选择
研究中的“小模型”参数范围从 2.7 亿到 800 亿。为捕捉规模与训练目标的差异,作者选取了多个相近规模的模型,包括指令微调版、推理优化版和代码专用版,并以闭源模型 GPT-4o-mini 作为性能基线。

表 2 | 实验选用模型列表。参数量跨度从 0.27B 到 80B,涵盖 Gemma3、Qwen3 系列及 GPT-4o-mini 基线,包含模型类型、参数量及预估显存占用,为不同规模 SLM 的对比分析提供了全面样本。
3.5 评价指标
除了常规的分类准确率(Cls ACC)和 F1 分数(Cls F1),作者特别强调了技能选择准确率(Skill ACC)以及两个效率指标:
* Avg GT (min):处理每个任务所需的平均时间(分钟)。
* Avg VRAM Time (GB-min):处理每个任务所需的平均 GPU 显存占用与时间的乘积。该指标源于云服务常见的 GPU 小时计费模式,能更准确地反映实际运营的算力成本——显存被占满将影响其他任务的并发执行。
四、实验结果与讨论
4.1 主要性能:技能回报在 SLM 中显现
如下表所示,大多数 SLM 在 ASI 策略下性能显著提升,且技能选择准确率保持高位。

表 3 | 不同模型在三种策略下的性能表现。因数据隐私限制,GPT-4o-mini 未在 InsurBench 上评估。整体上,ASI 策略使中大型 SLM 性能提升显著,而 4B 以下的超小模型在复杂任务上的提升微乎其微。
例如,在 FiNER 数据集上,Qwen3-80B-Instruct 的准确率从 DI 的 0.198 跃升至 ASI 的 0.654。相比之下,Gemma-3-4B-IT 和 Gemma-3-270M-IT 的提升幅度较小。
* 对于简单任务(如 IMDB),ASI 的优势不明显。
* 但对于复杂任务(如 FiNER、InsurBench),ASI 的必要性凸显。
InsurBench 的结果尤为重要,其闭源性质降低了训练数据泄露的可能。总体结论是:中等规模以上的 SLM 能从 ASI 中获得显著增益,而极小型模型提升有限。

图 1 | 不同模型变体在三个数据集上的归一化平均显存时间与任务准确率对比。左下区域代表“高准确率、低显存成本”,性能更优。80B 规模的代码专用模型显著落于该区域,在保持高准确率的同时大幅降低了显存时间成本,成为 Agent Skill 框架工业部署的最优选择。
4.2 极小型模型难以胜任技能路由
尽管每个任务仅包含 4-6 个干扰技能,技能识别按理说相对容易,但 Gemma-3-4B-IT 和 Gemma-3-270M-IT 仍难以可靠检索到正确技能。270M 参数模型甚至几乎无法完成路由,这表明极小型模型的语义理解能力尚不足以支撑技能选择的可靠性。
4.3 技能库规模扩大:模型表现呈现“规模效应”
为模拟真实场景,研究者将技能数量从5个逐步增加到100个,观察不同规模模型的技能选择准确率变化。

图2 | 技能数量在5至100区间内,模型技能选择准确率的拟合衰减曲线(实线)与实证数据点(标记点)对比。
实验结果显示,随着技能库规模扩大,模型准确率呈现指数衰减趋势,但不同规模模型的衰减幅度差异显著:
* 4B及以下超小模型:在技能数量超过10-20个后,准确率急剧下降。
* 12B及以上模型:表现出极强的鲁棒性,衰减曲线更为平缓。
* 80B代码专用模型:表现最优,即使在技能数达到100时,准确率仍能保持在约0.8的高水平。
* 30B模型:在技能数达到100时,准确率下降至约0.6。
* GPT-4o-mini:在精准解析技能的嵌套依赖关系方面面临挑战。
结果表明,较大规模的小语言模型在处理大规模技能库时更具鲁棒性。
4.4 后验探索:聊天历史与技能同义词
聊天历史的影响
研究者在InsurBench数据集上,对比了Agent Skill指令(ASI)与带最近3-4轮对话历史的ASI(ASIH)两种策略的效果。

表4 | 不同规模小语言模型在InsurBench数据集上,使用ASI与ASIH策略的性能对比。
分析表明:
* 极小型模型(如4B、270M):从引入聊天历史中获益最大,准确率显著提升。
* 大型模型(如30B、80B):准确率提升甚微,但引入历史会导致显存占用时间大幅增加(例如80B模型的VRAM时间几乎翻倍)。
因此,仅在部署轻量级小语言模型时,推荐启用聊天历史处理。
技能关键词替换
研究将技能描述中的关键词“Skill”替换为同义词(如“Capability”、“Expertise”、“Proficiency”),以观察对模型性能的影响。

表5 | 在InsurBench数据集上,测试Qwen3-80B-Instruct模型在ASI和FSI框架下,使用不同技能同义词的性能对比。
实验发现:
* 整体上,关键词替换对模型性能影响极小。
* 在各指标上,“Expertise”的表现略优于原词“Skill”。
* “Knowhow”在几乎不损失性能的前提下,能显著提升显存效率。
这表明技能命名具有一定的灵活性,但“Expertise”可能是更优的选择。
五、讨论与局限性
本研究验证了Agent Skill框架在特定规模小语言模型上的有效性,但也指出了若干局限性:
* 任务范围有限:实验主要集中于分类和标签任务,未涉及更复杂的多步推理或递归技能调用。
* 机制尚不明确:小语言模型在渐进式披露(信息分步给出)下的持续推理困难原因尚未探明;代码优化模型为何兼具高准确率和显存效率,仍有待深入研究。
* 技能表征优化:Skill.md文件的最优结构和技能表征方式仍是一个开放问题。
结论
本研究首次系统评估了Agent Skill框架在小语言模型上的适用性,为工业部署提供了实用指南。主要结论包括:
* 模型规模是关键:极小型模型(<4B)无法可靠地进行技能路由;中等规模模型(12B-30B)从该框架中受益最大。
* 代码优化模型优势明显:代码优化的80B模型在显存效率和任务准确率上均表现优异,是闭源模型的有力替代。
* 上下文需权衡:聊天历史对轻量级模型有益,但会对大模型带来显著的显存开销。
* 技能命名具有弹性:技能关键词替换对性能影响较小,其中“Expertise”可能是更优选择。
对于希望在工业环境中构建自主智能体的团队而言,这项工作提供了重要参考:需要根据实际需求选择合适的模型规模,合理设计技能库,并仔细权衡上下文工程带来的收益与成本。随着小语言模型的持续进步,Agent Skill框架有望在更多私有化、高安全需求的场景中落地。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23078
