小模型优化
-
揭秘70M小模型层数玄学:隐藏维度≥512是关键,32层成最佳配置
知名开源项目OpenEvolve的作者Asankhaya Sharma在一篇长文中,揭示了关于70M参数小模型的几个关键发现: 首先,模型的具体架构选择其重要性被高估,相比之下,模型的“形状”——即深度与宽度的配比——更为关键。 其次,小模型的层数选择存在明显的“玄学”现象:12层、32层和64层的模型表现优异,而16层、24层和48层的模型则效果不佳,其中…
-
英伟达NVARC小模型夺冠ARC-AGI 2:零预训练与合成数据策略解析
在近期公布的ARC-AGI 2竞赛结果中,英伟达NVARC团队凭借其4B参数的小模型以27.64%的公开榜成绩力压GPT-5 Pro(18.3%)登顶榜首,引发业界广泛关注。这一成就不仅展示了小模型在特定任务上的巨大潜力,更揭示了通过创新方法突破传统Scaling Law限制的可能性。本文将从技术策略、数据构建、模型优化等多个维度,深入剖析NVARC夺冠背后…