小模型训练

大模型训练

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

小模型如何成为智能体专家？传统上，增强大模型智能体能力常采用“技能增强”范式，即在推理时为其检索并提供相关的结构化技能知识。然而，这一范式对于参数有限的小模型（如3B、7B）而言存在显著局限。为此，浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是：让小模型在训练阶段将过程性知识内化到模型参数中，从而在推理时无…

2026年4月11日
312000
AI产业动态

小模型专项训练新范式：Karpathy 如何通过数据增强让“蜜蜂大脑”学会字母计数

近日，OpenAI 联合创始人 Andrej Karpathy 在社交媒体上分享了一项引人深思的实验：他成功训练了一个参数量极小的语言模型 nanochat d32 完成一项看似简单却极具挑战性的任务——准确计算单词中特定字母（如字母“r”）的数量。这一实验不仅展示了小模型在特定任务上的潜力，更揭示了在资源受限条件下，如何通过精心设计的数据增强策略来弥补模型…

2025年10月26日
334000