IT168 | AIGC浪潮之下，銳捷如何為算力網(wǎng)絡(luò)注入“智能”

發(fā)布時(shí)間：2024-07-10

當(dāng)前，AI技術(shù)正在持續(xù)賦能產(chǎn)業(yè)變革。繼文本和圖像之后，Sora的出現(xiàn)讓AI浪潮席卷至視頻領(lǐng)域，推動(dòng)AI多模態(tài)領(lǐng)域的快速發(fā)展。以AIGC為代表的業(yè)務(wù)應(yīng)用正在重塑人類的學(xué)習(xí)路徑、工作模式乃至生活節(jié)奏，推動(dòng)智能化和便捷化的發(fā)展。

AIGC時(shí)代，大模型參數(shù)量持續(xù)飆升，算力需求也隨之增長(zhǎng)，這就要求網(wǎng)絡(luò)能夠承載更大規(guī)模的GPU集群。以GPT-4為例，其參數(shù)量已躍升至驚人的1.8萬億，訓(xùn)練所需的算力更是高達(dá)4680P，只有萬卡集群能夠提供足夠的算力支持，滿足大模型訓(xùn)練的需求。

由于GPT-4擴(kuò)展MoE引入了大量的All to All通信，使機(jī)內(nèi)和機(jī)間通信的比例幾乎達(dá)到了1:1，機(jī)間All to All通信是依靠交換機(jī)轉(zhuǎn)發(fā)進(jìn)行傳輸，因此網(wǎng)絡(luò)通信對(duì)GPU利用率的影響越發(fā)明顯。這意味著，交換機(jī)需要升級(jí)到800G和1.6T的規(guī)格，以滿足大模型訓(xùn)練過程中的超大帶寬需求。

此外，在構(gòu)建大規(guī)模訓(xùn)練集群時(shí)，往往配備有數(shù)以萬計(jì)的高性能GPU，旨在支持并行處理多個(gè)復(fù)雜的模型訓(xùn)練任務(wù)。這種多任務(wù)并行環(huán)境極大地增加了流量的復(fù)雜性和動(dòng)態(tài)性，對(duì)網(wǎng)絡(luò)系統(tǒng)的負(fù)載均衡能力提出了前所未有的挑戰(zhàn)。因此，網(wǎng)絡(luò)架構(gòu)需要具備一定的靈活性和可擴(kuò)展性，以應(yīng)對(duì)不斷變化的流量需求。

銳捷AIGC智算中心網(wǎng)絡(luò) 支撐大規(guī)模算力集群建設(shè)

面向下一代AI云服務(wù)的智算中心網(wǎng)絡(luò)建設(shè)，銳捷網(wǎng)絡(luò)在去年推出了AI-Fabric智算中心網(wǎng)絡(luò)解決方案和AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案，以其高吞吐、大帶寬、高可用的特性，可應(yīng)用于大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、AIGC多種業(yè)務(wù)場(chǎng)景，助力客戶構(gòu)建萬卡級(jí)別的智算中心網(wǎng)絡(luò)，支撐AI業(yè)務(wù)快速發(fā)展。

銳捷網(wǎng)絡(luò)AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案采用NCP+NCF為基礎(chǔ)模塊橫向擴(kuò)展的三級(jí)網(wǎng)絡(luò)架構(gòu)，并基于高性能芯片技術(shù)，通過將數(shù)據(jù)流切分成等長(zhǎng)的Cell并負(fù)載到所有鏈路，提升網(wǎng)絡(luò)帶寬利用率；基于VOQ+Credit的端到端流控機(jī)制實(shí)現(xiàn)與業(yè)務(wù)無關(guān)的無損自閉環(huán)網(wǎng)絡(luò)，助力業(yè)務(wù)算力提升。

AI-FlexiForce方案通過應(yīng)用鏈路負(fù)載和擁塞控制技術(shù)，根本性解決網(wǎng)絡(luò)中的擁塞沖突問題，提升GPU之間通信和計(jì)算效率，加速企業(yè)大模型應(yīng)用的推出。同時(shí)，銳捷網(wǎng)絡(luò)打造了分布式OS，意在實(shí)現(xiàn)分布式方案架構(gòu)的統(tǒng)一管理基礎(chǔ)上，最大程度降低系統(tǒng)性風(fēng)險(xiǎn)，提升AI訓(xùn)練網(wǎng)絡(luò)的長(zhǎng)期穩(wěn)定運(yùn)行。

▲銳捷網(wǎng)絡(luò)數(shù)據(jù)中心網(wǎng)絡(luò)事業(yè)群高級(jí)技術(shù)總監(jiān) 權(quán)熙哲

為了適應(yīng)客戶的普適性場(chǎng)景，銳捷網(wǎng)絡(luò)在今年創(chuàng)新性地推出了AILB負(fù)載均衡解決方案，并從1.0版本持續(xù)迭代升級(jí)至2.0版本。憑借其可靠的性能與靈活性，AILB方案實(shí)現(xiàn)了多任務(wù)環(huán)境下不同模型間的數(shù)據(jù)通訊。權(quán)熙哲指出，“借助AILB方案，客戶可以更好地完成端到端的鏈路選擇，實(shí)現(xiàn)端到端的高吞吐。”

基于GPU間有規(guī)律的傳輸流量特征及Leaf/Spine之間1:1收斂的特征，網(wǎng)絡(luò)設(shè)備以Leaf分組，為L(zhǎng)eaf接入地所有網(wǎng)卡，自動(dòng)預(yù)規(guī)劃全局負(fù)載均衡路徑；主路由與其它等價(jià)路徑形成1主多備，AILB方案的快切技術(shù)，實(shí)現(xiàn)10ms內(nèi)完成路徑切換。

據(jù)悉，AILB方案可以疊加單級(jí)PFC（防止“多打一”）構(gòu)建無損Fabric，無需ECN端網(wǎng)對(duì)接，實(shí)現(xiàn)GPU網(wǎng)卡與外部網(wǎng)絡(luò)解耦。AILB方案在16節(jié)點(diǎn)PerfTest測(cè)試中，帶寬利用率高達(dá)97.6%，其快速的Failover切換時(shí)間，保障訓(xùn)練業(yè)務(wù)的連續(xù)性。該方案支持智算中心多租戶部署模式，適用于非Mellanox系列網(wǎng)卡。

目前，銳捷網(wǎng)絡(luò)智算中心網(wǎng)絡(luò)解決方案為跨行業(yè)通用型，不特定于某個(gè)單一行業(yè)，而是廣泛適用于AI大模型公司、政府行業(yè)、電力能源行業(yè)（如光伏企業(yè)）、IDC公司等等，為客戶提供更加專業(yè)的技術(shù)服務(wù)，助力他們應(yīng)對(duì)市場(chǎng)挑戰(zhàn)，實(shí)現(xiàn)可持續(xù)發(fā)展。

400G交換機(jī)與LPO光模塊驚艷亮相MWC2024

在MWC2024展區(qū)，銳捷網(wǎng)絡(luò)展出了RG-S6990-128QC數(shù)據(jù)中心交換機(jī)，以及高密度、低功耗的400G/800G LPO自研光模塊，適用于數(shù)據(jù)中心、高性能計(jì)算網(wǎng)絡(luò)、企業(yè)核心分布層，為數(shù)據(jù)中心服務(wù)器和交換機(jī)提供經(jīng)濟(jì)高效的高速互聯(lián)。

400G/800G LPO光模塊
▲400G/800G LPO光模塊

RG-S6990-128QC交換機(jī)是銳捷網(wǎng)絡(luò)面向高端數(shù)據(jù)中心和AIGC智算場(chǎng)景推出的新一代高性能、高密度盒式交換機(jī)。它采用先進(jìn)的硬件架構(gòu)設(shè)計(jì)，提供128個(gè)400GE端口，所有端口均支持線速轉(zhuǎn)發(fā)，轉(zhuǎn)發(fā)性能達(dá)到51.2Tbps，支持冗余可插拔電源和風(fēng)扇，支持AI-Fabric方案RALB和AILB負(fù)載均衡技術(shù)，提升AIGC智算場(chǎng)景下流量帶寬，縮短AI訓(xùn)練時(shí)長(zhǎng)。

權(quán)熙哲指出，“以51.2T芯片為基礎(chǔ)，這款交換機(jī)能夠提供128個(gè)400GE端口，支持高達(dá)1000張GPU卡的通信規(guī)模。同時(shí)，高密度的接口設(shè)計(jì)使得單個(gè)交換機(jī)能夠連接更多服務(wù)器，支持更大規(guī)模的服務(wù)器集群，滿足未來不斷增長(zhǎng)的數(shù)據(jù)處理需求。”

400G-QDD-DR4-SM1310模塊設(shè)計(jì)用于400G光模塊，采用QSFP-DD封裝，MPO-12 APC接頭接口，使用波長(zhǎng)1310nm，需配套單模光纖使用，最大傳輸距離為500m，可以實(shí)現(xiàn)功耗降低50%，LPO時(shí)延下降90%，成本降低15%，無需1分2跳線，規(guī)模增加一倍，仍可維持傳統(tǒng)布線方案。

在成本方面，隨著400G LPO光模塊的DSP芯片量產(chǎn)，其成本占比已從早期的30%以上降至當(dāng)前的10%左右，提升了產(chǎn)品的性價(jià)比。對(duì)于更高速率的800G及1.6T光模塊，銳捷雖面臨DSP芯片成本占比較高的挑戰(zhàn)，但仍致力于通過技術(shù)創(chuàng)新與規(guī)模效應(yīng)來降低成本。

權(quán)熙哲認(rèn)為，“我們已正式發(fā)布了400G與800G的LPO光模塊，實(shí)現(xiàn)了整體功耗降低超過60%的成效。具體而言，傳統(tǒng)光模塊可能消耗高達(dá)15瓦的電力，而我們的LPO光模塊僅需4～5瓦，極大提升了能效比。希望通過銳捷的交換機(jī)加線性光模塊，給客戶提供一個(gè)有競(jìng)爭(zhēng)力的性價(jià)比。”

下半年，銳捷網(wǎng)絡(luò)將推出800G及更高密度的交換機(jī)產(chǎn)品，同時(shí)，1.6T交換機(jī)及配套的線性光模塊也在緊鑼密鼓的研發(fā)中，預(yù)計(jì)在未來兩年內(nèi)面世。我們相信，通過不懈努力，銳捷能夠克服技術(shù)挑戰(zhàn)，推動(dòng)光通信領(lǐng)域向更高速率、更低功耗、更低成本的方向發(fā)展。

轉(zhuǎn)載來源：IT168

關(guān)注銳捷

: 關(guān)注銳捷官網(wǎng)微信
隨時(shí)了解公司最新動(dòng)態(tài)

IT168 | AIGC浪潮之下，銳捷如何為算力網(wǎng)絡(luò)注入“智能”

銳捷AIGC智算中心網(wǎng)絡(luò) 支撐大規(guī)模算力集群建設(shè)

400G交換機(jī)與LPO光模塊驚艷亮相MWC2024

相關(guān)方案

請(qǐng)選擇服務(wù)項(xiàng)目