組網(wǎng)擴(kuò)展性要求高
不同的金融客戶對(duì)GPU算力投入有差異,小規(guī)模起步到規(guī)模化使用要求智算網(wǎng)絡(luò)具備較高的可擴(kuò)展性。
網(wǎng)絡(luò)性能要求高
大模型的機(jī)間網(wǎng)絡(luò)通信占比大幅提升,帶寬接入能力及帶寬利用率成為影響訓(xùn)練效率的網(wǎng)絡(luò)關(guān)鍵指標(biāo)。
訓(xùn)練連續(xù)性要求高
大模型采用多機(jī)多卡集群,機(jī)間網(wǎng)絡(luò)一旦出現(xiàn)故障將會(huì)導(dǎo)致集群訓(xùn)練任務(wù)中斷,拉長(zhǎng)訓(xùn)練周期,降低訓(xùn)練效率,機(jī)間網(wǎng)絡(luò)的可靠性對(duì)于訓(xùn)練效率的影響愈發(fā)明顯。
投產(chǎn)運(yùn)營(yíng)復(fù)雜度高
智算中心建設(shè)投產(chǎn)復(fù)雜、業(yè)務(wù)上線慢,大規(guī)模網(wǎng)絡(luò)并行計(jì)算導(dǎo)致故障節(jié)點(diǎn)難定位,網(wǎng)絡(luò)設(shè)備、光模塊的高密度部署造成以電力換算力的高成本運(yùn)行模式。