大模型训练

  • 55万块GPU利用率仅11%?xAI的困境揭示AI军备竞赛下半场:买到只是第一步,用好才是关键

    AI时代堆积GPU,难道就是这种堆法? 马斯克旗下的xAI,其GPU资源利用率目前仅约11%。相关报告显示,其AI软件栈的优化效果并不理想。近日,《The Information》的报道引发了广泛关注。 目前,xAI在其Memphis和Colossus数据中心集群中运营着约55万块英伟达GPU,涵盖H100和H200两种型号,部分设备采用液冷散热配置。尽管这…

    2026年5月5日
    20000
  • DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构

    昨天下午,DeepSeek 对其开源代码库 DeepGEMM 进行了一次重要更新。此次更新的核心是引入了一个名为 Mega MoE 的新项目。 Mega MoE 由 DeepSeek 基础设施团队的 Chenggang Zhao 等人贡献,相关代码已提交至 GitHub(链接:https://github.com/deepseek-ai/DeepGEMM/p…

    2026年4月17日
    42100
  • 京东全球首推全链路具身智能数据基础设施,发动60万人采集1000万小时真实场景数据

    继宣布将建成全球最大具身数据采集中心后,京东在具身智能领域公布了新的进展。4月16日,京东在具身智能生态发布会上,宣布推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,并展示了自研的超高清采集终端JoyEgoCam、具身大模型JoyAI-RA及具身智能数据交易平台。 依托该基础设施及其在零售、物流、工业、健康等领域的场景优势,京东旨在推动具…

    2026年4月16日
    31700
  • PyTorch torch.compile性能突破:LayerNorm与RMSNorm内核优化,GPU性能提升至SOTA水平

    关键词:torch.compile、归一化算子、LayerNorm、RMSNorm、GPU性能优化 LayerNorm与RMSNorm是深度学习模型中的基础归一化算子,用于对输入数据进行标准化处理。它们是确保大模型训练平稳收敛、提升推理效率的关键模块。在高性能GPU平台上,其内核性能直接决定了整体训练吞吐量。 目前,业界顶尖的归一化内核多依赖于手工深度优化。…

    2026年4月9日
    34000
  • GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

    在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。 近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可…

    2026年4月1日
    33900
  • OpenResearcher:首个开源离线深度研究轨迹合成流水线,训练30B模型超越GPT-4.1与Claude-4-Opus

    训练一个能够像人类研究员一样执行“搜索→浏览→推理”的深度研究智能体,其核心瓶颈往往不在于模型本身的能力,而在于高质量、长程研究轨迹数据的严重匮乏。现有的数据采集方法要么依赖昂贵且不稳定的在线搜索API,要么只能生成2-5轮的浅层交互,远不足以覆盖真实深度研究中动辄数十轮甚至上百轮的复杂推理链条。 针对这一痛点,来自德克萨斯农工大学、滑铁卢大学、加州大学圣地…

    2026年3月29日
    49600
  • Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升

    注意力残差:对残差连接的结构性改进 引言:一个基础性的问题 现代大型语言模型普遍采用深度神经网络架构,信息从输入层开始,逐层向上传递并接受加工,最终产生输出。然而,随着网络层数的增加,训练过程面临一个根本性挑战:梯度信号在反向传播过程中,经过数十甚至上百层的传递后,可能严重衰减或消失,导致底层参数难以得到有效更新。 2015年,何恺明团队在《Deep Res…

    2026年3月18日
    98300
  • MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

    在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

    2026年3月15日
    50700
  • 突破语言桎梏:用神经细胞自动机预训练大模型,性能提升6%,推理能力增强

    如果有一天,大语言模型不再依赖人类语言进行训练,会发生什么? 近年来,大模型能力的飞跃几乎都建立在一个前提之上:海量的文本数据。然而,随着高质量文本资源逐渐逼近极限,研究者开始提出一个更根本的问题:语言,真的是智能的起点吗? 一项最新研究给出了一个出人意料的答案:或许不是。研究团队假设,让语言模型在学习语言之前,先在完全非语言的合成数据上进行“预预训练”(p…

    2026年3月14日
    41300
  • 清华团队破解FlashAttention低精度训练玄学:BF16下数值偏置如何引爆大模型训练

    一句话总结:困扰社区多年的一个“玄学”现象终于被拆解清楚:在BF16等低精度训练中,FlashAttention并非随机出错,而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大,最终导致权重谱范数和激活值失控,引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动,…

    2026年3月4日
    86900