层数玄学

  • 揭秘70M小模型层数玄学:隐藏维度≥512是关键,32层成最佳配置

    知名开源项目OpenEvolve的作者Asankhaya Sharma在一篇长文中,揭示了关于70M参数小模型的几个关键发现: 首先,模型的具体架构选择其重要性被高估,相比之下,模型的“形状”——即深度与宽度的配比——更为关键。 其次,小模型的层数选择存在明显的“玄学”现象:12层、32层和64层的模型表现优异,而16层、24层和48层的模型则效果不佳,其中…

    2026年1月11日
    5900