節(jié)點規(guī)模對訓(xùn)練效率的影響
單純提升服務(wù)器節(jié)點規(guī)模,集群計算效率反而下降
帶寬對訓(xùn)練效率的影響
服務(wù)器集群的通信帶寬已成為提升分布式訓(xùn)練效率的瓶頸
動態(tài)時延對訓(xùn)練效率的影響
網(wǎng)絡(luò)擁塞導(dǎo)致動態(tài)時延高,降低GPU利用率,訓(xùn)練時間延長
丟包率對于訓(xùn)練效率的影響
RDMA丟包重傳導(dǎo)致帶寬利用率快速降低,丟包率達到1%,嚴重影響訓(xùn)練效率