分布式训练并行技术梳理总结

首先声明一些符号: 模型参数量:$\Phi$ GPU数量:$N$(有时候可能误写成了$n$) Pipeline degree(或者说PP size):$p$ TP siz...