大模型训练
-
强化学习流式壁垒被突破:步长单位错误是根源,新方法用输出变化反推步长
2024年末,一篇题为《流式深度强化学习终于跑通了》的论文(arXiv:2410.14606)在学术界激起波澜。该研究出自阿尔伯塔大学Mahmood团队,作者们用大量篇幅揭示了一个尴尬的现实:强化学习作为一种天然适合“边学边做”的方法,在深度神经网络时代却几乎无法实现这一点。一旦移除回放缓冲区,或将批量大小设为1,训练过程便会彻底崩溃。他们称之为“流式壁垒”…
-
普林斯顿伯克利联手打造SonicMoE:在Blackwell GPU上实现峰值吞吐量,性能超越DeepSeek DeepGEMM
提到“索尼克”,无论是游戏中的蓝色刺猬还是高速移动的概念,人们的第一反应往往是“快”。而“快”同样是当前众多AI模型与应用优化的核心追求。 近日,由普林斯顿大学Tri Dao(FlashAttention的第一作者)与加州大学伯克利分校Ion Stoica共同领导的联合研究团队,也推出了一款名为SonicMoE的“超快”系统。 据官方介绍,SonicMoE能…
-
Python原生MoE训练框架Pith-Train:一万行代码实现四维并行与FP8量化,打破生产级与可读性二选一
大模型训练系统往往像一座封闭工厂:流水线、通信拓扑、专家路由、显存复用、混合精度与检查点恢复都在高速运转,但开发者很难看清齿轮如何咬合。 生产框架性能强,却常被十万行以上的 C++/CUDA 与复杂运行时包裹;轻量代码容易读懂,却难以承载真实 MoE 训练的吞吐压力。 Pith-Train 试图打破这个二选一:它用约一万行 Python,把 Pipeline…
-
万亿参数训练不再难:GraphPP用图变换彻底消除流水线气泡,加速70%
随着模型参数规模跨越万亿大关,分布式训练已演变为深度学习领域的“基础设施新范式”。然而,流水线并行在突破单张GPU显存极限的同时,也引入了一个棘手的性能杀手——“气泡”问题:GPU在等待跨阶段依赖时大量陷入空转,严重稀释了昂贵算力的实际投入。 上图揭示了大模型训练中一个核心的权衡循环(Tradeoff Cycle),清晰展现了模型规模增长所引发的连锁式挑战。…
-
DeepSeek-V4揭秘:细粒度专家并行隐藏通信时延,FP4量化与TileLang协同优化百万Token上下文
混合专家模型(MoE)所采用的专家并行技术,虽然能够有效加速模型的推理与训练过程,但同时也引入了复杂的节点间通信难题。这一难题对互联带宽与延迟提出了极为苛刻的要求,从而成为了制约大型模型性能提升的核心瓶颈。 DeepSeek-V4 构建了一套完备的通用基础设施体系,精准应对了通信与计算协同、内核开发效率、训练确定性、量化部署以及长上下文推理等多项关键挑战。 …
-
谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机
弹性 AI 预训练已经推进到了下一个前沿!没有意外:来自谷歌。 据介绍,他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术,能够利用全球各地的异构硬件进行训练,并且即使当硬件发生故障时,系统也不会停止运行! 这项重磅研究成果引发了广泛关注,论文 Leads 作者之一的 Arthur Douillard 在 X 上的分享推文获得了超 2…
-
PyTorch与TPU深度融合!TorchTPU项目发布:三行代码切换,让TPU成为PyTorch一等公民
TorchTPU:三行代码切换,让TPU成为PyTorch一等公民 关键词:PyTorch、TPU、TorchTPU、XLA、分布式训练 在2026年PyTorch欧洲大会上,Meta与Google联合发布了TorchTPU项目,这是全场最重磅的技术发布。 这并非一个普通的硬件适配插件,而是双方深度打通PyTorch框架与Google TPU硬件的原生解决方…
-
Sol-RL:NVIDIA联合团队突破扩散模型强化学习算力瓶颈,FP4探索+BF16训练实现高效对齐
关键词:扩散模型强化学习(Diffusion RL)、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构 在文本到图像扩散模型的后训练对齐领域,GRPO 等强化学习方法虽效果显著,却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架,并未采用对模型进行直接粗暴…
-
SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式
小模型如何成为智能体专家? 传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。 为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无…
-
PyTorch torch.compile性能突破:LayerNorm与RMSNorm内核优化,GPU性能提升至SOTA水平
关键词:torch.compile、归一化算子、LayerNorm、RMSNorm、GPU性能优化 LayerNorm与RMSNorm是深度学习模型中的基础归一化算子,用于对输入数据进行标准化处理。它们是确保大模型训练平稳收敛、提升推理效率的关键模块。在高性能GPU平台上,其内核性能直接决定了整体训练吞吐量。 目前,业界顶尖的归一化内核多依赖于手工深度优化。…
