大模型训练

强化学习流式壁垒被突破：步长单位错误是根源，新方法用输出变化反推步长

2024年末，一篇题为《流式深度强化学习终于跑通了》的论文（arXiv:2410.14606）在学术界激起波澜。该研究出自阿尔伯塔大学Mahmood团队，作者们用大量篇幅揭示了一个尴尬的现实：强化学习作为一种天然适合“边学边做”的方法，在深度神经网络时代却几乎无法实现这一点。一旦移除回放缓冲区，或将批量大小设为1，训练过程便会彻底崩溃。他们称之为“流式壁垒”…

3天前

101000

大模型训练

普林斯顿伯克利联手打造SonicMoE：在Blackwell GPU上实现峰值吞吐量，性能超越DeepSeek DeepGEMM

提到“索尼克”，无论是游戏中的蓝色刺猬还是高速移动的概念，人们的第一反应往往是“快”。而“快”同样是当前众多AI模型与应用优化的核心追求。近日，由普林斯顿大学Tri Dao（FlashAttention的第一作者）与加州大学伯克利分校Ion Stoica共同领导的联合研究团队，也推出了一款名为SonicMoE的“超快”系统。据官方介绍，SonicMoE能…

2026年5月4日

156000

Python原生MoE训练框架Pith-Train：一万行代码实现四维并行与FP8量化，打破生产级与可读性二选一

大模型训练系统往往像一座封闭工厂：流水线、通信拓扑、专家路由、显存复用、混合精度与检查点恢复都在高速运转，但开发者很难看清齿轮如何咬合。生产框架性能强，却常被十万行以上的 C++/CUDA 与复杂运行时包裹；轻量代码容易读懂，却难以承载真实 MoE 训练的吞吐压力。 Pith-Train 试图打破这个二选一：它用约一万行 Python，把 Pipeline…

大模型训练 2026年5月2日

206000

万亿参数训练不再难：GraphPP用图变换彻底消除流水线气泡，加速70%

随着模型参数规模跨越万亿大关，分布式训练已演变为深度学习领域的“基础设施新范式”。然而，流水线并行在突破单张GPU显存极限的同时，也引入了一个棘手的性能杀手——“气泡”问题：GPU在等待跨阶段依赖时大量陷入空转，严重稀释了昂贵算力的实际投入。上图揭示了大模型训练中一个核心的权衡循环（Tradeoff Cycle），清晰展现了模型规模增长所引发的连锁式挑战。…

大模型训练 2026年4月29日

149000

DeepSeek-V4揭秘：细粒度专家并行隐藏通信时延，FP4量化与TileLang协同优化百万Token上下文

混合专家模型（MoE）所采用的专家并行技术，虽然能够有效加速模型的推理与训练过程，但同时也引入了复杂的节点间通信难题。这一难题对互联带宽与延迟提出了极为苛刻的要求，从而成为了制约大型模型性能提升的核心瓶颈。 DeepSeek-V4 构建了一套完备的通用基础设施体系，精准应对了通信与计算协同、内核开发效率、训练确定性、量化部署以及长上下文推理等多项关键挑战。 …

大模型训练 2026年4月27日

387000

大模型训练

谷歌Decoupled DiLoCo：弹性预训练新突破，容错分布式训练实现零停机

弹性 AI 预训练已经推进到了下一个前沿！没有意外：来自谷歌。据介绍，他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术，能够利用全球各地的异构硬件进行训练，并且即使当硬件发生故障时，系统也不会停止运行！这项重磅研究成果引发了广泛关注，论文 Leads 作者之一的 Arthur Douillard 在 X 上的分享推文获得了超 2…

2026年4月25日

267000

大模型训练

PyTorch与TPU深度融合！TorchTPU项目发布：三行代码切换，让TPU成为PyTorch一等公民

TorchTPU：三行代码切换，让TPU成为PyTorch一等公民关键词：PyTorch、TPU、TorchTPU、XLA、分布式训练在2026年PyTorch欧洲大会上，Meta与Google联合发布了TorchTPU项目，这是全场最重磅的技术发布。这并非一个普通的硬件适配插件，而是双方深度打通PyTorch框架与Google TPU硬件的原生解决方…

2026年4月14日

409000

大模型训练

Sol-RL：NVIDIA联合团队突破扩散模型强化学习算力瓶颈，FP4探索+BF16训练实现高效对齐

关键词：扩散模型强化学习（Diffusion RL）、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构在文本到图像扩散模型的后训练对齐领域，GRPO 等强化学习方法虽效果显著，却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架，并未采用对模型进行直接粗暴…

2026年4月13日

339000

大模型训练

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

小模型如何成为智能体专家？传统上，增强大模型智能体能力常采用“技能增强”范式，即在推理时为其检索并提供相关的结构化技能知识。然而，这一范式对于参数有限的小模型（如3B、7B）而言存在显著局限。为此，浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是：让小模型在训练阶段将过程性知识内化到模型参数中，从而在推理时无…

2026年4月11日

320000

大模型训练

PyTorch torch.compile性能突破：LayerNorm与RMSNorm内核优化，GPU性能提升至SOTA水平

关键词：torch.compile、归一化算子、LayerNorm、RMSNorm、GPU性能优化 LayerNorm与RMSNorm是深度学习模型中的基础归一化算子，用于对输入数据进行标准化处理。它们是确保大模型训练平稳收敛、提升推理效率的关键模块。在高性能GPU平台上，其内核性能直接决定了整体训练吞吐量。目前，业界顶尖的归一化内核多依赖于手工深度优化。…

2026年4月9日

340000