谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

弹性 AI 预训练已经推进到了下一个前沿!没有意外:来自谷歌

据介绍,他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术,能够利用全球各地的异构硬件进行训练,并且即使当硬件发生故障时,系统也不会停止运行!

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

这项重磅研究成果引发了广泛关注,论文 Leads 作者之一的 Arthur Douillard 在 X 上的分享推文获得了超 260 万次浏览!

值得注意的是,著名研究者、Google DeepMind 和 Google Research 首席科学家 Jeff Dean 也是作者之一。他也发布了多条推文介绍这项成果。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

推文中,他还回忆了自己 14 年前的一篇一作论文《Large Scale Distributed Deep Networks》。在这篇 NeurIPS 2012 论文中,他们就已经证明大规模训练和异步技术可以用于训练非常庞大的神经网络,并以容错的方式将训练任务分散到数千台机器上。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

而现在,Decoupled DiLoCo 有望将这个理念真正变成切实可行的大规模工程实践。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

  • 论文标题:Decoupled DiLoCo for Resilient Distributed Pre-training
  • 论文地址:https://arxiv.org/pdf/2604.21428v1

背景:规模越大,故障越频繁

要理解这项工作的意义,先要理解现代 AI 训练的一个根本困境。

今天训练大语言模型,普遍采用一种叫做 SPMD(单程序多数据)的并行方式。简单来说,就像一个工厂里所有工人必须同步操作一条流水线 —— 每个人都在做自己那一步,但所有人必须同时完成,才能推进到下一步。任何一个工位出了问题,整条流水线就得停下来等。

这在小规模下没什么问题。但当集群规模扩展到数十万乃至数百万块芯片时,概率就开始作怪了。

论文里有一个直接的计算:假设每块芯片平均一年才会出一次故障,听起来已经很可靠了。但如果集群里有 240 万块芯片,整个集群的平均故障间隔就缩短到不足一分钟。在这个规模下,硬件故障可不能再被视为意外了,而是训练过程中的日常。

现有的应对方式,是所谓的「弹性训练」:检测到某台机器宕机后,重新调整集群配置,用剩余的健康机器继续跑。但这个重配置过程本身就要耗费大量时间,导致整个集群在等待期间无法做有效计算。

论文的模拟数据显示,在 240 万块芯片的规模下,即使有弹性机制,实际有效计算时间(即「Goodput」,有效吞吐率)也只有 40%—— 也就是说,有 60% 的时间,集群处于某种形式的等待或重配置状态,白白浪费算力。

打破「步调一致」的枷锁

Decoupled DiLoCo 的核心思路,是彻底放弃让所有机器保持同步这个前提。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

这套框架把整个训练集群拆分成若干个独立的「学习器」(Learner)。每个学习器各自用自己分到的数据独立训练,不需要等待其他学习器。当某个学习器出了故障,其余的学习器完全感知不到,继续自己的训练节奏。这就好比把一个大型联合考场拆成了若干个独立考场,一个考场里出了火情疏散,不影响其他考场里的学生继续答题。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

那各个学习器之间怎么协同,让最终训练出的是同一个模型?

这里引入了一个轻量级的「同步器」(Syncer)。同步器运行在相对稳定的 CPU 资源上,负责周期性地收集各个学习器的参数更新,做一次合并,再把合并后的结果推送回去。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

关键在于:同步器不需要等所有学习器都准备好才开始合并。只要有足够数量(论文称为「最小法定数」,即 Minimum Quorum)的学习器汇报了自己的进度,同步器就可以开始工作,出故障的那个学习器直接跳过,等它恢复后再补上。

此外,由于不同学习器的计算速度可能不同(尤其是混用了新旧两代芯片时),一个跑得快的学习器在同步间隔里处理的数据会比慢的多。为了避免快的学习器在合并时「一票顶多票」,同步器引入了基于处理 token 数量的动态权重机制,让合并结果更公平地反映每个学习器的实际贡献。

还有一个细节叫「自适应宽限窗口」(Adaptive Grace Window):同步器在达到最小法定数后,不会立刻合并,而是会多等一点点时间,争取让更多学习器赶上这一轮同步,从而提高每次合并的质量。这个等待时间被精心控制在不影响整体训练速度的范围之内。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

另一个技术细节是「平衡张量分片」(Balanced Tensor Fragmentation)。模型参数不再一整块传输,而是被切成若干大小相近的碎片,每一步只传输其中一片,均匀分摊通信压力,避免带宽使用忽高忽低的「脉冲式」传输。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

实验结果:故障率极高时,性能几乎不掉

论文用大量实验验证了这套方案的实际效果。

在 Goodput(有效吞吐率)方面,模拟 240 万块芯片、平均每年每块故障一次的场景(此时整个集群故障间隔不足一分钟),Decoupled DiLoCo 使用 8 个学习器时,Goodput 维持在 88%。而同等条件下,传统弹性数据并行方案的 Goodput 只有 58%。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

在模型质量方面,论文对比了 5B 参数稠密模型在 1 万亿 token 上的训练结果。无论是文本基准(ARC、BoolQ、HellaSwag 等)还是视觉基准(DocVQA、TextVQA 等),Decoupled DiLoCo 的下游评测成绩与传统数据并行训练几乎没有差距。也就是说,大幅提升了容错能力,但并没有以牺牲模型质量为代价。

谷歌Decoupled DiLoCo:弹性预训练新突破,容错分布式训练实现零停机

论文还验证了这套方案在混合旧式芯片(TPUv5e 与 TPUv5p)场景下的表现。即便最慢的学习器比最快的慢了接近 20%,通过最小法定数加自适应宽限窗口的组合,系统依然实现了与完全同步训练相当的模型质量,同时计算利用率维持在 100%。

带宽消耗方面,数字尤为惊人。为了达到 90% 的计算利用率,传统数据并行方案在 1 秒计算步长、2 个数据中心的场景下需要约 104 Gbits/s 的带宽;Decoupled DiLoCo 只需要 1.7 Gbits/s,采用 int4 压缩后进一步降至 0.43 Gbits/s。带宽需求减少了约两个数量级。

更大的想象空间:「捡漏」算力

低带宽需求带来了一个意想不到的附加价值:可以随时「捡漏」那些临时可用的算力资源。

传统数据并行训练要加入新机器,需要先把当前的完整模型参数传过去,这个过程可能占用整个集群的大量时间,训练效率会在加入新机器的瞬间大幅下降。

Decoupled DiLoCo 不同,新学习器加入时,可以先从邻近学习器异步拉取一份当前的模型状态,在这期间其他学习器完全不受影响,继续正常训练。

论文做了一个实验:在训练过程中,动态加入额外的临时学习器(模拟白天可用算力增加的场景)。结果显示,加入越多临时算力,训练完成时间越短,模型质量不受影响。而同等设置下的数据并行基准,额外算力需要翻倍以上才能开始体现效益。

这意味着,分布在不同地区、不同时区、不同代际硬件上的零散算力,也可以被纳入同一次训练任务,哪怕它们之间的网络带宽只有普通数据中心内部的几十分之一。

一个旧设想,终于等到了工程条件

Jeff Dean 在回忆 2012 年那篇论文时说,当年他们就已经在想:如果能容忍一定程度的不一致性,是不是可以让训练更有弹性?只是受限于当时的规模和工程条件,这个想法没能完全落地。

十四年后,当模型规模扩展到数十亿参数、训练集群动辄几十万乃至数百万块芯片,这个问题已不再是单纯的研究问题,而是「必须解决」的工程问题。

Decoupled DiLoCo 给出的答案是:放弃全局强一致性,用异步和分权换来可用性,同时通过精心的算法设计把模型质量的损耗压到几乎可以忽略不计。

论文的结尾写道:随着预训练扩展到跨地区集群,带宽和硬件可靠性双重受限的环境将越来越普遍,「可用性优先」的训练范式,将从「有优势」变成「有必要」。

看起来,这篇论文正在重新定义下一代超大规模模型训练的基础设施。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32047

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

    论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…

    2026年3月13日
    28000
  • 何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据

    何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据 静态3D资产缺少动力学信息,而真实的物理仿真标签又极其昂贵——如何高效扩展物理仿真模型的训练? 何恺明团队的最新论文GeoPT 提出了一种新思路。该研究引入了一种名为动力学提升几何预训练 的全新范式,通过合成动力学 将静态几何“提升”到动态空间,使模型能够在无标签数据…

    2026年2月26日
    32300
  • 清华团队破解FlashAttention低精度训练玄学:BF16下数值偏置如何引爆大模型训练

    一句话总结:困扰社区多年的一个“玄学”现象终于被拆解清楚:在BF16等低精度训练中,FlashAttention并非随机出错,而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大,最终导致权重谱范数和激活值失控,引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动,…

    2026年3月4日
    80700
  • LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统

    不再依赖人工设计,让模型真正学会管理记忆。 来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架—— Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。 在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。 不…

    2025年10月20日
    38000
  • Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

    在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。 在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。 其后果是:那些仅差一…

    2026年2月20日
    23700