小模型如何成为智能体专家?
传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。
为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无需依赖外部技能库,实现零样本自主执行。

这一思路仿照了人类的学习过程——从“参照说明书”逐步过渡到“凭肌肉记忆自主完成”。SKILL0通过上下文强化学习与动态课程学习两项关键机制,在训练中逐步撤掉技能参考,促使模型将技能内化为“本能”。
“技能增强”范式的局限性
论文指出,推理时的“技能增强”方法并不适用于小模型,主要原因有三:
- 检索噪声致命:可能引入无关或误导性指导,严重污染小模型有限的上下文窗口,且极度依赖外部检索质量。
- Token开销爆炸:技能数量增多及智能体多轮交互会导致上下文长度急剧膨胀,占用大量计算资源。
- 缺乏深度理解:模型并未真正学会技能,只是在推理时“照本宣科”。一旦撤走技能支持,模型性能便会大幅衰退。

△ 技能增强(左)与技能内化(右)对比。传统方案每次推理都需检索技能文档;SKILL0仅在训练时使用技能,推理时完全自主。
从“技能增强”到“技能内化”
SKILL0框架复现了人类掌握技能的完整历程,其核心创新可拆解为三个步骤:

△ 图2:SKILL0框架全景。a:相关性驱动的技能分组;b:带技能的智能体训练循环;c:训练过程中的动态课程学习。
第一步:构建层级化技能库
训练开始前,预先构建一个层级化的技能库,分为两类:
* 通用技能:跨任务的策略原则,例如“先探索,再行动”。
* 任务特定技能:针对特定领域的专门知识,例如“在搜索任务中如何查询实体属性”。
技能按相关性分组,作为训练阶段的“参考书”,为后续课程学习中的动态筛选奠定基础。
第二步:上下文强化学习——促使真实学习而非表面模仿
传统强化学习方案存在两难:全程不给技能,模型难以学会复杂任务;全程提供技能,模型则只会机械模仿,无法形成内在能力。
SKILL0采用上下文强化学习:在训练时,为模型提供完整的技能上下文;在推理评估时,则完全撤走所有技能。 为确保效率,技能与历史交互信息被渲染成语义颜色编码的图片,再经视觉编码器压缩,从而大幅节省文本Token开销并保留结构信息。
模型根据环境任务奖励与自压缩奖励共同计算优势函数,进行参数更新:

第三步:动态课程学习——逐步撤走“脚手架”
训练过程分为多个阶段,每个阶段允许使用的技能数量(技能预算)线性衰减。例如,在ALFWorld任务中,6个技能文件分3个阶段训练,预算序列为[6, 3, 0]。
技能筛选并非预先设定,而是通过一套在线的“评估-过滤-排序-选择”机制动态完成:
1. 评估帮助度:定期测试每个技能文件存在与否对任务准确率的影响,其差值即为该技能的“帮助度”。
2. 过滤与排序:仅保留帮助度大于零的技能,并按帮助度从高到低排序。
3. 按预算选取:在当前阶段预算内,选取排名最靠前的技能文件供模型使用。
论文中的帮助度变化曲线揭示了训练动态:

- 训练早期:帮助度较低,模型尚未学会有效利用技能。
- 训练中期:帮助度上升,模型学会借助技能提升表现。
- 训练后期:帮助度回落,表明技能知识已内化至参数中,外部提示不再必要。
理论分析表明,线性衰减的课程策略能确保训练稳定性,避免策略梯度训练中出现剧烈波动。
实验结果

- ALFWorld任务:3B参数的SKILL0模型平均成功率达到87.9%,较标准RL基线(AgentOCR)提升9.7%,甚至超过了全程使用技能的基线(SkillRL,82.4%)。
- Search-QA任务:同样在3B模型上,SKILL0平均得分40.8%,比AgentOCR高6.6%,与SkillRL持平或略优。
- 超越闭源大模型:在ALFWorld任务中,7B参数的SKILL0在零技能推理下取得了89.8%的成功率,显著高于GPT-4o(48.0%)和Gemini-2.5-Pro(60.3%)。
除了性能优势,SKILL0还展现出极高的Token效率。在ALFWorld和Search-QA任务中,3B模型每步推理的上下文开销分别仅为0.38k和0.18k Token,比SkillRL节省了5倍以上。
训练过程曲线印证了技能内化的效果:

训练初期,使用技能的模型性能提升更快;但随着课程推进,不使用技能的模型性能逐渐追上并最终反超,证明技能知识已有效内化。
消融实验进一步验证了核心设计的重要性:
* 若训练全程给满技能(预算[6,6,6]),推理时撤走技能会导致性能暴跌12.3%。而SKILL0的渐进课程([6,3,0])使模型在撤走技能后性能提升1.6%。
* 若移除动态课程中的过滤机制,性能下降2.7%;若进一步移除排序机制(随机选择技能),性能将骤降至62.9%,比完整SKILL0低13.7%。


总结
当前智能体研究的焦点多集中于优化运行时检索与技能注入。SKILL0则提出了一条互补路径:将稳定的、可复用的过程性知识通过训练内化至模型参数中。这使得参数受限的小模型有望通过端到端训练,成为胜任复杂任务的领域专家。
当然,技能内化并非要完全取代运行时增强。对于需要实时更新的知识(如最新API文档),检索机制仍然必要。但对于那些固有的、模式化的行为能力,实现从“外部工具”到“内在能力”的转变,或许是智能体走向真正自主的关键一步。
论文标题:SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
论文地址:https://arxiv.org/abs/2604.02268
项目代码:https://github.com/ZJU-REAL/SkillZero
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29747

