扩展定律

大模型工程

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题

深度网络通信瓶颈：152层模型为何“沉默”？华中科大团队揭示层间信息稀释难题（上）过去十年，深度学习领域取得进展的方式出奇地一致：构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效：损失在降低，能力在增长，扩展定律（Scaling Law）精确地指引着研究团队需要投入多少资源。然而，扩展的方向不同，其挑战和影响也截然不同。序列长度的扩…

9小时前
34000