SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

小模型如何成为智能体专家?

传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。

为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无需依赖外部技能库,实现零样本自主执行。

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

这一思路仿照了人类的学习过程——从“参照说明书”逐步过渡到“凭肌肉记忆自主完成”。SKILL0通过上下文强化学习动态课程学习两项关键机制,在训练中逐步撤掉技能参考,促使模型将技能内化为“本能”。

“技能增强”范式的局限性

论文指出,推理时的“技能增强”方法并不适用于小模型,主要原因有三:

  1. 检索噪声致命:可能引入无关或误导性指导,严重污染小模型有限的上下文窗口,且极度依赖外部检索质量。
  2. Token开销爆炸:技能数量增多及智能体多轮交互会导致上下文长度急剧膨胀,占用大量计算资源。
  3. 缺乏深度理解:模型并未真正学会技能,只是在推理时“照本宣科”。一旦撤走技能支持,模型性能便会大幅衰退。

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

技能增强(左)与技能内化(右)对比。传统方案每次推理都需检索技能文档;SKILL0仅在训练时使用技能,推理时完全自主。

从“技能增强”到“技能内化”

SKILL0框架复现了人类掌握技能的完整历程,其核心创新可拆解为三个步骤:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

图2:SKILL0框架全景。a:相关性驱动的技能分组;b:带技能的智能体训练循环;c:训练过程中的动态课程学习。

第一步:构建层级化技能库

训练开始前,预先构建一个层级化的技能库,分为两类:
* 通用技能:跨任务的策略原则,例如“先探索,再行动”。
* 任务特定技能:针对特定领域的专门知识,例如“在搜索任务中如何查询实体属性”。

技能按相关性分组,作为训练阶段的“参考书”,为后续课程学习中的动态筛选奠定基础。

第二步:上下文强化学习——促使真实学习而非表面模仿

传统强化学习方案存在两难:全程不给技能,模型难以学会复杂任务;全程提供技能,模型则只会机械模仿,无法形成内在能力。

SKILL0采用上下文强化学习在训练时,为模型提供完整的技能上下文;在推理评估时,则完全撤走所有技能。 为确保效率,技能与历史交互信息被渲染成语义颜色编码的图片,再经视觉编码器压缩,从而大幅节省文本Token开销并保留结构信息。

模型根据环境任务奖励与自压缩奖励共同计算优势函数,进行参数更新:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

第三步:动态课程学习——逐步撤走“脚手架”

训练过程分为多个阶段,每个阶段允许使用的技能数量(技能预算)线性衰减。例如,在ALFWorld任务中,6个技能文件分3个阶段训练,预算序列为[6, 3, 0]。

技能筛选并非预先设定,而是通过一套在线的“评估-过滤-排序-选择”机制动态完成:
1. 评估帮助度:定期测试每个技能文件存在与否对任务准确率的影响,其差值即为该技能的“帮助度”。
2. 过滤与排序:仅保留帮助度大于零的技能,并按帮助度从高到低排序。
3. 按预算选取:在当前阶段预算内,选取排名最靠前的技能文件供模型使用。

论文中的帮助度变化曲线揭示了训练动态:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

  • 训练早期:帮助度较低,模型尚未学会有效利用技能。
  • 训练中期:帮助度上升,模型学会借助技能提升表现。
  • 训练后期:帮助度回落,表明技能知识已内化至参数中,外部提示不再必要。

理论分析表明,线性衰减的课程策略能确保训练稳定性,避免策略梯度训练中出现剧烈波动。

实验结果

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

  • ALFWorld任务:3B参数的SKILL0模型平均成功率达到87.9%,较标准RL基线(AgentOCR)提升9.7%,甚至超过了全程使用技能的基线(SkillRL,82.4%)。
  • Search-QA任务:同样在3B模型上,SKILL0平均得分40.8%,比AgentOCR高6.6%,与SkillRL持平或略优。
  • 超越闭源大模型:在ALFWorld任务中,7B参数的SKILL0在零技能推理下取得了89.8%的成功率,显著高于GPT-4o(48.0%)和Gemini-2.5-Pro(60.3%)。

除了性能优势,SKILL0还展现出极高的Token效率。在ALFWorld和Search-QA任务中,3B模型每步推理的上下文开销分别仅为0.38k0.18k Token,比SkillRL节省了5倍以上。

训练过程曲线印证了技能内化的效果:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

训练初期,使用技能的模型性能提升更快;但随着课程推进,不使用技能的模型性能逐渐追上并最终反超,证明技能知识已有效内化。

消融实验进一步验证了核心设计的重要性:
* 若训练全程给满技能(预算[6,6,6]),推理时撤走技能会导致性能暴跌12.3%。而SKILL0的渐进课程([6,3,0])使模型在撤走技能后性能提升1.6%
* 若移除动态课程中的过滤机制,性能下降2.7%;若进一步移除排序机制(随机选择技能),性能将骤降至62.9%,比完整SKILL0低13.7%。

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式
SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

总结

当前智能体研究的焦点多集中于优化运行时检索与技能注入。SKILL0则提出了一条互补路径:将稳定的、可复用的过程性知识通过训练内化至模型参数中。这使得参数受限的小模型有望通过端到端训练,成为胜任复杂任务的领域专家。

当然,技能内化并非要完全取代运行时增强。对于需要实时更新的知识(如最新API文档),检索机制仍然必要。但对于那些固有的、模式化的行为能力,实现从“外部工具”到“内在能力”的转变,或许是智能体走向真正自主的关键一步。

论文标题:SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
论文地址:https://arxiv.org/abs/2604.02268
项目代码:https://github.com/ZJU-REAL/SkillZero


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29747

(0)
上一篇 2026年4月11日 下午1:56
下一篇 2026年4月12日 上午10:42

相关推荐

  • 强化学习云:大模型训练下半场的新引擎与基础设施革命

    2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…

    2026年1月12日
    30200
  • 自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?

    自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力? 当 AI 试图通过“抄袭”自己的思考过程来变得更高效时,它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。 在人工智能领域,一种名为“自我蒸馏”(Self-Distillation)的后训练范式正迅速崛起。其核心思想极具吸引力:让模型自己充当老师,利用更丰富的上下文信息(如标准答案)来指导学…

    2026年3月30日
    41900
  • SFT到RL之间藏了个大坑:多模态模型后训练被忽视的隐形断层

    被忽视的“隐形断层”:SFT究竟做了什么? 先来看一组颇具启发性的数据(基于7个主流多模态基准测试的平均准确率): 阶段 Qwen3-VL-4B Qwen3-VL-8B 原始Instruct模型 59.7% 63.3% SFT之后 56.8% (-3.0) 58.1% (-5.2) SFT → GRPO 61.8% 63.3% 观察可见,经过SFT后,模型性…

    1天前
    7300
  • GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

    在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。 近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可…

    2026年4月1日
    37000
  • ReVision突破:无需图文配对,几何对齐解锁多模态大模型预训练新范式

    无需图文配对,几何对齐解锁多模态大模型预训练新范式 在多模态大模型(MLLM)的研发中,一个长期共识是:没有图文对(Image-Text Pairs),就没有多模态能力。为了训练模型理解图像,业界通常需要耗费巨资收集海量图片,并为每张图片生成高质量的文本描述。这种强监督的配对数据,一直被视为多模态训练的基石。 然而,来自港科大(广州)、新加坡国立大学等机构的…

    2026年3月3日
    29800