DualPipeV
-
Python原生MoE训练框架Pith-Train:一万行代码实现四维并行与FP8量化,打破生产级与可读性二选一
大模型训练系统往往像一座封闭工厂:流水线、通信拓扑、专家路由、显存复用、混合精度与检查点恢复都在高速运转,但开发者很难看清齿轮如何咬合。 生产框架性能强,却常被十万行以上的 C++/CUDA 与复杂运行时包裹;轻量代码容易读懂,却难以承载真实 MoE 训练的吞吐压力。 Pith-Train 试图打破这个二选一:它用约一万行 Python,把 Pipeline…