神经网络架构

  • 深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题

    深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题(上) 过去十年,深度学习领域取得进展的方式出奇地一致:构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效:损失在降低,能力在增长,扩展定律(Scaling Law)精确地指引着研究团队需要投入多少资源。 然而,扩展的方向不同,其挑战和影响也截然不同。序列长度的扩…

    2026年4月20日
    22300
  • 神经网络权重空间的柏拉图式启示:通用子空间假说如何重塑AI架构认知

    近期,约翰斯・霍普金斯大学的一项突破性研究揭示了神经网络训练中一个令人震撼的规律:超过1100个在不同数据集、不同初始化条件下训练的神经网络,其最终学到的权重都会收敛到一个共享的低维子空间。这一发现不仅挑战了传统机器学习中“数据驱动一切”的范式,更暗示着神经网络架构本身可能蕴含着某种先验的数学结构——所有训练过程本质上都是在“发现”而非“创造”这个早已存在的…

    2025年12月14日
    38300