知名开源项目OpenEvolve的作者Asankhaya Sharma在一篇长文中,揭示了关于70M参数小模型的几个关键发现:
首先,模型的具体架构选择其重要性被高估,相比之下,模型的“形状”——即深度与宽度的配比——更为关键。
其次,小模型的层数选择存在明显的“玄学”现象:12层、32层和64层的模型表现优异,而16层、24层和48层的模型则效果不佳,其中32层被证实为最佳配置。
研究进一步指出,这一“层数玄学”背后的根本原因在于模型的隐藏维度(hidden dimension)。核心结论是:隐藏维度必须大于或等于512,这是一个性能的基础门槛。

发现小模型层数存在“玄学”
研究始于一个简单的问题:对于一个用10亿tokens训练的70M参数模型,标准的12层、768隐藏维度的GPT-2架构是否仍然是最优的?
为了探究模型架构与数据组成孰轻孰重,研究团队在保持模型参数量、训练数据、训练时长及硬件配置完全一致的前提下,系统性地改变了GPT-2变体的“形状”(即调整深度和宽度),以观察不同“深度-宽度配比”对性能的影响。

实验结果出人意料:模型性能并未随层数增减而平滑变化。当层数从4层变化到64层时,性能清晰地分裂为两个阵营:
* 表现优异的层数:12层、32层、64层,平均准确率约38%。
* 表现不佳的层数:16层、24层、48层,平均准确率约32%。
两个阵营的平均性能差距超过6个百分点,且各自内部差异极小(约0.5%),呈现出明显的两极分化。

原因出在“隐藏维度”上
深入分析表明,导致这一现象的关键因素是隐藏维度。隐藏维度即神经网络前馈层的宽度,它决定了模型内部表示向量的尺寸。
研究发现,模型的隐藏维度必须≥512,这是一个基础性能门槛。12层模型之所以表现好,正是因为其隐藏维度恰好为512。
那么,宽度更窄(隐藏维度小于512)的32层和64层模型为何也能跻身“优等生”行列?研究指出,它们通过特殊的深度配置对宽度不足进行了“补偿”:
* 32层处于“黄金补偿点”:在隐藏维度为384时,32层这一特定深度能最高效地弥补宽度不足,取得了所有配置中的最高分(38.50%)。
* 64层则属于“暴力补偿”:尽管隐藏维度仅256,但凭借极深的层数强行提升了性能。
而16层、24层和48层模型则陷入了“死角”:它们的隐藏维度太窄,同时深度又不在能有效补偿的最佳位置。

由此,研究总结出模型性能优异的条件:必须满足以下三者之一:1) 隐藏维度 ≥ 512;2) 层数正好为32层;3) 层数在64层及以上以进行深度补偿。其中,32层被确认为全场最佳配置。

进一步发现:“形状”比架构选择更重要
在确定32层为最佳深度后,研究比较了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构在70M规模下的表现。
结果发现,在70M参数范围内,所有现代架构的表现惊人地相似,平均差异不到2%。
* 自回归模型(GPT-2, LLaMA3, Qwen3等)平均性能集中在32%-33%。
* 扩散模型(dLLM, Dhara等)平均性能集中在31%-32%。
这表明,许多为70亿以上参数大模型设计的架构改进(如RMSNorm、RoPE、GQA),在70M小模型上无法带来可衡量的优势。因此,对小模型而言,精心调整的“形状”远比选择哪个具体的“架构变体”更重要。

意外之喜:扩散模型有自己的独特优势
尽管扩散模型的平均准确率略低于自回归模型,但研究指出其在其他方面具有显著优势,主要体现在推理速度和事实准确性(幻觉率低) 上。
相比传统自回归模型,扩散模型的推理速度快3.8倍,非常适合批量任务处理。

此外,在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高(达49.27%),表明其产生的“幻觉”更少。

研究认为这得益于扩散模型的三个特性:
1. 双向注意力机制允许模型在预测时考虑完整上下文。
2. 迭代改进过程让模型能在多个去噪步骤中“重新评估”预测结果。
3. 非自回归生成方式可能减少了早期错误累积放大的“滚雪球效应”。
研究还介绍了一个提升模型事实准确性的小技巧:添加一种称为“Canon层”(一种精心设计的卷积层)的特殊结构。这仅增加0.13%的参数开销,却能使普通模型的事实性得分提升1%,对扩散模型的提升效果更明显,超过2%。

更重要的是,通过应用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型,所需数据量、成本和训练时间仅为从头训练的1/10,且在多项基准测试上表现相当甚至更优。

推出集大成者:Dhara-70M模型
综合所有研究发现,团队最终推出了Dhara-70M模型。其构建方法是:首先采用最佳的自回归架构(LLaMA3-Canon),然后使用WSD方法将其转换为扩散模型。
这使得Dhara-70M兼具两者优势:既拥有自回归模型的知识储备,又具备扩散模型的高吞吐量和低幻觉率。

这项研究的意义在于提醒资源有限的小语言模型构建者:不应盲目追求最新的架构“魔法”,而应首先关注基础的“深度-宽度配比”,确保模型不落入性能“死亡区域”;其次,如果应用场景需要高速处理且对事实准确性要求高,扩散模型是一个极具竞争力的选择。
Dhara-70M开源地址:
https://huggingface.co/codelion/dhara-70m
参考链接:
https://huggingface.co/blog/codelion/optimal-model-architecture
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17778
