SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

小模型如何成为智能体专家？

传统上，增强大模型智能体能力常采用“技能增强”范式，即在推理时为其检索并提供相关的结构化技能知识。然而，这一范式对于参数有限的小模型（如3B、7B）而言存在显著局限。

为此，浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是：让小模型在训练阶段将过程性知识内化到模型参数中，从而在推理时无需依赖外部技能库，实现零样本自主执行。

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

这一思路仿照了人类的学习过程——从“参照说明书”逐步过渡到“凭肌肉记忆自主完成”。SKILL0通过上下文强化学习与动态课程学习两项关键机制，在训练中逐步撤掉技能参考，促使模型将技能内化为“本能”。

“技能增强”范式的局限性

论文指出，推理时的“技能增强”方法并不适用于小模型，主要原因有三：

检索噪声致命：可能引入无关或误导性指导，严重污染小模型有限的上下文窗口，且极度依赖外部检索质量。
Token开销爆炸：技能数量增多及智能体多轮交互会导致上下文长度急剧膨胀，占用大量计算资源。
缺乏深度理解：模型并未真正学会技能，只是在推理时“照本宣科”。一旦撤走技能支持，模型性能便会大幅衰退。

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

△ 技能增强（左）与技能内化（右）对比。传统方案每次推理都需检索技能文档；SKILL0仅在训练时使用技能，推理时完全自主。

从“技能增强”到“技能内化”

SKILL0框架复现了人类掌握技能的完整历程，其核心创新可拆解为三个步骤：

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

△ 图2：SKILL0框架全景。a：相关性驱动的技能分组；b：带技能的智能体训练循环；c：训练过程中的动态课程学习。

第一步：构建层级化技能库

训练开始前，预先构建一个层级化的技能库，分为两类：
* 通用技能：跨任务的策略原则，例如“先探索，再行动”。
* 任务特定技能：针对特定领域的专门知识，例如“在搜索任务中如何查询实体属性”。

技能按相关性分组，作为训练阶段的“参考书”，为后续课程学习中的动态筛选奠定基础。

第二步：上下文强化学习——促使真实学习而非表面模仿

传统强化学习方案存在两难：全程不给技能，模型难以学会复杂任务；全程提供技能，模型则只会机械模仿，无法形成内在能力。

SKILL0采用上下文强化学习：在训练时，为模型提供完整的技能上下文；在推理评估时，则完全撤走所有技能。 为确保效率，技能与历史交互信息被渲染成语义颜色编码的图片，再经视觉编码器压缩，从而大幅节省文本Token开销并保留结构信息。

模型根据环境任务奖励与自压缩奖励共同计算优势函数，进行参数更新：

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

第三步：动态课程学习——逐步撤走“脚手架”

训练过程分为多个阶段，每个阶段允许使用的技能数量（技能预算）线性衰减。例如，在ALFWorld任务中，6个技能文件分3个阶段训练，预算序列为[6, 3, 0]。

技能筛选并非预先设定，而是通过一套在线的“评估-过滤-排序-选择”机制动态完成：
1. 评估帮助度：定期测试每个技能文件存在与否对任务准确率的影响，其差值即为该技能的“帮助度”。
2. 过滤与排序：仅保留帮助度大于零的技能，并按帮助度从高到低排序。
3. 按预算选取：在当前阶段预算内，选取排名最靠前的技能文件供模型使用。

论文中的帮助度变化曲线揭示了训练动态：

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

训练早期：帮助度较低，模型尚未学会有效利用技能。
训练中期：帮助度上升，模型学会借助技能提升表现。
训练后期：帮助度回落，表明技能知识已内化至参数中，外部提示不再必要。

理论分析表明，线性衰减的课程策略能确保训练稳定性，避免策略梯度训练中出现剧烈波动。

实验结果

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

ALFWorld任务：3B参数的SKILL0模型平均成功率达到87.9%，较标准RL基线（AgentOCR）提升9.7%，甚至超过了全程使用技能的基线（SkillRL，82.4%）。
Search-QA任务：同样在3B模型上，SKILL0平均得分40.8%，比AgentOCR高6.6%，与SkillRL持平或略优。
超越闭源大模型：在ALFWorld任务中，7B参数的SKILL0在零技能推理下取得了89.8%的成功率，显著高于GPT-4o（48.0%）和Gemini-2.5-Pro（60.3%）。

除了性能优势，SKILL0还展现出极高的Token效率。在ALFWorld和Search-QA任务中，3B模型每步推理的上下文开销分别仅为0.38k和0.18k Token，比SkillRL节省了5倍以上。

训练过程曲线印证了技能内化的效果：

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

训练初期，使用技能的模型性能提升更快；但随着课程推进，不使用技能的模型性能逐渐追上并最终反超，证明技能知识已有效内化。

消融实验进一步验证了核心设计的重要性：
* 若训练全程给满技能（预算[6,6,6]），推理时撤走技能会导致性能暴跌12.3%。而SKILL0的渐进课程（[6,3,0]）使模型在撤走技能后性能提升1.6%。
* 若移除动态课程中的过滤机制，性能下降2.7%；若进一步移除排序机制（随机选择技能），性能将骤降至62.9%，比完整SKILL0低13.7%。

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

总结

当前智能体研究的焦点多集中于优化运行时检索与技能注入。SKILL0则提出了一条互补路径：将稳定的、可复用的过程性知识通过训练内化至模型参数中。这使得参数受限的小模型有望通过端到端训练，成为胜任复杂任务的领域专家。

当然，技能内化并非要完全取代运行时增强。对于需要实时更新的知识（如最新API文档），检索机制仍然必要。但对于那些固有的、模式化的行为能力，实现从“外部工具”到“内在能力”的转变，或许是智能体走向真正自主的关键一步。

论文标题：SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
论文地址：https://arxiv.org/abs/2604.02268
项目代码：https://github.com/ZJU-REAL/SkillZero

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29747

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

小模型如何成为智能体专家？

“技能增强”范式的局限性

△ 技能增强（左）与技能内化（右）对比。传统方案每次推理都需检索技能文档；SKILL0仅在训练时使用技能，推理时完全自主。

从“技能增强”到“技能内化”

△ 图2：SKILL0框架全景。a：相关性驱动的技能分组；b：带技能的智能体训练循环；c：训练过程中的动态课程学习。

第一步：构建层级化技能库

第二步：上下文强化学习——促使真实学习而非表面模仿

第三步：动态课程学习——逐步撤走“脚手架”

实验结果

总结

相关推荐

何恺明团队突破性研究：GeoPT用合成动力学预训练，让AI自学物理规律，节省60%仿真数据

Sol-RL：NVIDIA联合团队突破扩散模型强化学习算力瓶颈，FP4探索+BF16训练实现高效对齐

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的’思维崩塌’难题

构建自我进化的AI智能体：从静态提示到动态协作训练架构全解析

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界