SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

小模型如何成为智能体专家?

传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。

为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无需依赖外部技能库,实现零样本自主执行。

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

这一思路仿照了人类的学习过程——从“参照说明书”逐步过渡到“凭肌肉记忆自主完成”。SKILL0通过上下文强化学习动态课程学习两项关键机制,在训练中逐步撤掉技能参考,促使模型将技能内化为“本能”。

“技能增强”范式的局限性

论文指出,推理时的“技能增强”方法并不适用于小模型,主要原因有三:

  1. 检索噪声致命:可能引入无关或误导性指导,严重污染小模型有限的上下文窗口,且极度依赖外部检索质量。
  2. Token开销爆炸:技能数量增多及智能体多轮交互会导致上下文长度急剧膨胀,占用大量计算资源。
  3. 缺乏深度理解:模型并未真正学会技能,只是在推理时“照本宣科”。一旦撤走技能支持,模型性能便会大幅衰退。

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

技能增强(左)与技能内化(右)对比。传统方案每次推理都需检索技能文档;SKILL0仅在训练时使用技能,推理时完全自主。

从“技能增强”到“技能内化”

SKILL0框架复现了人类掌握技能的完整历程,其核心创新可拆解为三个步骤:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

图2:SKILL0框架全景。a:相关性驱动的技能分组;b:带技能的智能体训练循环;c:训练过程中的动态课程学习。

第一步:构建层级化技能库

训练开始前,预先构建一个层级化的技能库,分为两类:
* 通用技能:跨任务的策略原则,例如“先探索,再行动”。
* 任务特定技能:针对特定领域的专门知识,例如“在搜索任务中如何查询实体属性”。

技能按相关性分组,作为训练阶段的“参考书”,为后续课程学习中的动态筛选奠定基础。

第二步:上下文强化学习——促使真实学习而非表面模仿

传统强化学习方案存在两难:全程不给技能,模型难以学会复杂任务;全程提供技能,模型则只会机械模仿,无法形成内在能力。

SKILL0采用上下文强化学习在训练时,为模型提供完整的技能上下文;在推理评估时,则完全撤走所有技能。 为确保效率,技能与历史交互信息被渲染成语义颜色编码的图片,再经视觉编码器压缩,从而大幅节省文本Token开销并保留结构信息。

模型根据环境任务奖励与自压缩奖励共同计算优势函数,进行参数更新:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

第三步:动态课程学习——逐步撤走“脚手架”

训练过程分为多个阶段,每个阶段允许使用的技能数量(技能预算)线性衰减。例如,在ALFWorld任务中,6个技能文件分3个阶段训练,预算序列为[6, 3, 0]。

技能筛选并非预先设定,而是通过一套在线的“评估-过滤-排序-选择”机制动态完成:
1. 评估帮助度:定期测试每个技能文件存在与否对任务准确率的影响,其差值即为该技能的“帮助度”。
2. 过滤与排序:仅保留帮助度大于零的技能,并按帮助度从高到低排序。
3. 按预算选取:在当前阶段预算内,选取排名最靠前的技能文件供模型使用。

论文中的帮助度变化曲线揭示了训练动态:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

  • 训练早期:帮助度较低,模型尚未学会有效利用技能。
  • 训练中期:帮助度上升,模型学会借助技能提升表现。
  • 训练后期:帮助度回落,表明技能知识已内化至参数中,外部提示不再必要。

理论分析表明,线性衰减的课程策略能确保训练稳定性,避免策略梯度训练中出现剧烈波动。

实验结果

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

  • ALFWorld任务:3B参数的SKILL0模型平均成功率达到87.9%,较标准RL基线(AgentOCR)提升9.7%,甚至超过了全程使用技能的基线(SkillRL,82.4%)。
  • Search-QA任务:同样在3B模型上,SKILL0平均得分40.8%,比AgentOCR高6.6%,与SkillRL持平或略优。
  • 超越闭源大模型:在ALFWorld任务中,7B参数的SKILL0在零技能推理下取得了89.8%的成功率,显著高于GPT-4o(48.0%)和Gemini-2.5-Pro(60.3%)。

除了性能优势,SKILL0还展现出极高的Token效率。在ALFWorld和Search-QA任务中,3B模型每步推理的上下文开销分别仅为0.38k0.18k Token,比SkillRL节省了5倍以上。

训练过程曲线印证了技能内化的效果:

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

训练初期,使用技能的模型性能提升更快;但随着课程推进,不使用技能的模型性能逐渐追上并最终反超,证明技能知识已有效内化。

消融实验进一步验证了核心设计的重要性:
* 若训练全程给满技能(预算[6,6,6]),推理时撤走技能会导致性能暴跌12.3%。而SKILL0的渐进课程([6,3,0])使模型在撤走技能后性能提升1.6%
* 若移除动态课程中的过滤机制,性能下降2.7%;若进一步移除排序机制(随机选择技能),性能将骤降至62.9%,比完整SKILL0低13.7%。

SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式
SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

总结

当前智能体研究的焦点多集中于优化运行时检索与技能注入。SKILL0则提出了一条互补路径:将稳定的、可复用的过程性知识通过训练内化至模型参数中。这使得参数受限的小模型有望通过端到端训练,成为胜任复杂任务的领域专家。

当然,技能内化并非要完全取代运行时增强。对于需要实时更新的知识(如最新API文档),检索机制仍然必要。但对于那些固有的、模式化的行为能力,实现从“外部工具”到“内在能力”的转变,或许是智能体走向真正自主的关键一步。

论文标题:SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
论文地址:https://arxiv.org/abs/2604.02268
项目代码:https://github.com/ZJU-REAL/SkillZero


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29747

(0)
上一篇 2天前
下一篇 1天前

相关推荐

  • 何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据

    何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据 静态3D资产缺少动力学信息,而真实的物理仿真标签又极其昂贵——如何高效扩展物理仿真模型的训练? 何恺明团队的最新论文GeoPT 提出了一种新思路。该研究引入了一种名为动力学提升几何预训练 的全新范式,通过合成动力学 将静态几何“提升”到动态空间,使模型能够在无标签数据…

    2026年2月26日
    27300
  • Sol-RL:NVIDIA联合团队突破扩散模型强化学习算力瓶颈,FP4探索+BF16训练实现高效对齐

    关键词:扩散模型强化学习(Diffusion RL)、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构 在文本到图像扩散模型的后训练对齐领域,GRPO 等强化学习方法虽效果显著,却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架,并未采用对模型进行直接粗暴…

    3小时前
    1800
  • 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

    论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…

    2026年3月13日
    21700
  • 构建自我进化的AI智能体:从静态提示到动态协作训练架构全解析

    在智能体(Agentic)系统中,无论是用于工具调用还是复杂推理,其行动通常由提示词(Prompts)引导。然而,传统的提示词是静态的,它们仅能提供行动步骤,却无法实现自我进化。真正的智能体训练(Agentic Training)源于系统在动态环境中的学习、适应与协作能力。 在智能体架构中,每个子智能体(Sub-Agent)的目标各异,这意味着单一的算法无法…

    2025年11月15日
    24600
  • 超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

    基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…

    2026年3月8日
    16100