發(fā)布時(shí)間:2024-07-03
2024年6月27日,ODCC夏季全會(huì)網(wǎng)絡(luò)工作組會(huì)議在大連順利召開。會(huì)議由ODCC網(wǎng)絡(luò)工作組組長、騰訊基礎(chǔ)網(wǎng)絡(luò)中心總監(jiān)何澤坤主持。來自騰訊、阿里、快手、迅特、中國移動(dòng)、銳捷、華勤、英特爾、博通、云合、云豹、中國信通院等單位的專家圍繞 IBN、AI網(wǎng)絡(luò)、開放光網(wǎng)絡(luò)、智算資源池、超節(jié)點(diǎn)互聯(lián)等議題展開熱烈討論。

快手平臺(tái)架構(gòu)師閻璐從定義、部署、驗(yàn)證閉環(huán)的架構(gòu)、網(wǎng)絡(luò)、配置、路由模型等方面,介紹了快手在網(wǎng)絡(luò)建設(shè)和演進(jìn)過程,并提出以模型作為橋梁,緊密連接網(wǎng)絡(luò)設(shè)計(jì)、運(yùn)維實(shí)踐與業(yè)務(wù)負(fù)載,確保來自不同層面的網(wǎng)絡(luò)意圖能夠被準(zhǔn)確理解、安全部署得到可靠驗(yàn)證。

騰訊光網(wǎng)絡(luò)架構(gòu)師封建勝分析了國內(nèi)外數(shù)據(jù)中心光互連場(chǎng)景區(qū)別,通過比較112GE光芯片方案,以及智算中心對(duì)光互連的質(zhì)量要求,提出了采用硅光技術(shù)路線探索400G BR4規(guī)格。

迅特通信戰(zhàn)略市場(chǎng)部總監(jiān)郝軍從插損、連接結(jié)構(gòu)等方面,重點(diǎn)分析了新的極簡(jiǎn)保護(hù)方案對(duì)網(wǎng)絡(luò)架構(gòu)帶來的影響,并提出此方案具備了性價(jià)比高、插損小、交換容量大、適應(yīng)接口類型多(MPO/LC)、可納入統(tǒng)一管控等特性。

阿里巴巴技術(shù)專家鄭衛(wèi)堂分析了開放光網(wǎng)絡(luò)設(shè)備操作系統(tǒng)原理,提出通過定義光網(wǎng)絡(luò)操作系統(tǒng)的軟件需求和統(tǒng)一的光傳輸器件接口規(guī)范(OTAI),實(shí)現(xiàn)跨多廠商的白盒光傳輸軟件系統(tǒng)。

中國移動(dòng)項(xiàng)目經(jīng)理房梽斅基于海量數(shù)據(jù)廣域高吞吐傳輸需求,提出廣域高吞吐技術(shù),為攻克“長肥”網(wǎng)絡(luò)高吞吐傳輸難題,完成任務(wù)式、高吞吐、安全高效產(chǎn)品級(jí)別能力封裝,支撐“數(shù)據(jù)快遞”創(chuàng)新服務(wù)奠定基礎(chǔ)。

騰訊光網(wǎng)絡(luò)架構(gòu)師陳國耀分享了開放光C+L系統(tǒng)在落地應(yīng)用中的核心難題與系統(tǒng)驗(yàn)證測(cè)試?yán)锏淖⒁馐马?xiàng),包括由于拉曼散射造成的功率轉(zhuǎn)移現(xiàn)象、主流ASE填充方案帶來的好處與影響等。

中國移動(dòng)項(xiàng)目經(jīng)理許豪豪分享了基于DPU的高性能存儲(chǔ)網(wǎng)絡(luò)技術(shù)解決方案,提出該方案以存算分離架構(gòu)為基礎(chǔ),以DPU為核心組件,以NVMe-oF技術(shù)為支撐,以存儲(chǔ)虛擬化為手段,為數(shù)據(jù)中心帶來更高效、靈活的存儲(chǔ)方式。

中國信通院云大所數(shù)據(jù)中心部高級(jí)業(yè)務(wù)主管孫聰解析了智算資源池技術(shù)規(guī)范,介紹了規(guī)范所覆蓋的關(guān)鍵領(lǐng)域,具體涵蓋AI基礎(chǔ)設(shè)施標(biāo)準(zhǔn)化、資源高效匯聚管理及自動(dòng)化運(yùn)維,為AI應(yīng)用快速迭代與規(guī)模化部署奠定基礎(chǔ)。

下午,各專家聚焦于ETH-X超節(jié)點(diǎn)技術(shù),從不同的專業(yè)視角,共同探討了ETH-X超節(jié)點(diǎn)在高性能計(jì)算、人工智能、數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)優(yōu)化等方面的潛在影響和應(yīng)用前景。
騰訊網(wǎng)絡(luò)首席架構(gòu)師夏寅賁提出通過scale up方式,以超大帶寬互聯(lián)GPU構(gòu)成HBD則成為突破算力瓶頸的重要方向。ETH-X項(xiàng)目利用以太網(wǎng)技術(shù),建立高帶寬、靈活擴(kuò)縮的GPU間直連網(wǎng)絡(luò),及GPU與CPU/Memory的高速大容量互聯(lián)系統(tǒng),以此突破現(xiàn)有算力限制。

銳捷AI技術(shù)部經(jīng)理李述利介紹了AIGC計(jì)算建模方案相關(guān)的方法論,闡述了AI集群中各個(gè)關(guān)鍵變化因素對(duì)于業(yè)務(wù)性能的影響,并針對(duì)超大規(guī)模集群系統(tǒng)下的典型場(chǎng)景,分析了大模型訓(xùn)練與推理的性能收益。

華勤系統(tǒng)架構(gòu)師邢星從供電和散熱以及互聯(lián)領(lǐng)域,介紹了超節(jié)點(diǎn)整機(jī)柜和計(jì)算節(jié)點(diǎn)的設(shè)計(jì),強(qiáng)調(diào)了通過兼容多種不同廠商的OAM GPU模組,有效提升了系統(tǒng)設(shè)計(jì)的一致性和通用性。

銳捷網(wǎng)絡(luò)硬件架構(gòu)師程旭升基于ETH-X交換節(jié)點(diǎn)設(shè)計(jì),分析了模塊化設(shè)計(jì)理念方案,并依據(jù)交換節(jié)點(diǎn)面板及背板通道的插入損耗,提出了針對(duì)性的改進(jìn)建議,旨在進(jìn)一步提升信號(hào)傳輸效率。

快手網(wǎng)絡(luò)架構(gòu)師余曦通過分析廠商已有的超節(jié)點(diǎn)產(chǎn)品在機(jī)柜內(nèi)及機(jī)柜間的物理互聯(lián)方式,為ETH-X系統(tǒng)的scale-up網(wǎng)絡(luò)互聯(lián)方案設(shè)計(jì)提供指引,并結(jié)合ETH-X項(xiàng)目組內(nèi)計(jì)算合作伙伴和交換合作伙伴的技術(shù)能力,提供了合理的ETH-X scale-up網(wǎng)絡(luò)互聯(lián)方案建議。

英特爾平臺(tái)架構(gòu)師王楠在介紹Gaudi3產(chǎn)品及其整機(jī)架解決方案時(shí),強(qiáng)調(diào)了利用靈活且符合開放標(biāo)準(zhǔn)的網(wǎng)絡(luò)連接技術(shù),借助以太網(wǎng)接口來實(shí)現(xiàn)數(shù)以萬計(jì)AI加速器的高效互連,從而為人工智能系統(tǒng)提供強(qiáng)大的支持。

博通交換芯片事業(yè)部方案架構(gòu)總監(jiān)何宗應(yīng)針對(duì)ETH-X超節(jié)點(diǎn)項(xiàng)目,分析了Scale-up互聯(lián)網(wǎng)絡(luò)的特征,通過總結(jié)Tomhawk5芯片的端側(cè)調(diào)度網(wǎng)絡(luò)方案、Jeircho3-AI的交換機(jī)端到端調(diào)度網(wǎng)絡(luò)方案以及Thor2的端側(cè)網(wǎng)卡方案,分享了UEC在以太網(wǎng)賦能AI/ML集群方面的創(chuàng)新成果。

云合智網(wǎng)產(chǎn)品架構(gòu)師蔡烽立足智算網(wǎng)絡(luò)需求,闡述了構(gòu)建高性能智算網(wǎng)絡(luò)的體系,實(shí)現(xiàn)了國產(chǎn)智算中心網(wǎng)絡(luò)構(gòu)建,并從標(biāo)準(zhǔn)化、實(shí)際需求及芯片性能、功耗、面積等角度深入探討了Scale Up芯片的設(shè)計(jì)考量。

云豹智能產(chǎn)品總監(jiān)呂濤分享了基于DPU技術(shù)的超節(jié)點(diǎn)Memory Pool應(yīng)用實(shí)例,并探討了面向未來超節(jié)點(diǎn)的DPU技術(shù)發(fā)展趨勢(shì)與演進(jìn)路徑。

網(wǎng)絡(luò)創(chuàng)新持續(xù)演進(jìn),技術(shù)突破與研究成果廣受矚目。未來,ODCC網(wǎng)絡(luò)工作組將持續(xù)聯(lián)合各方力量共同探索先進(jìn)網(wǎng)絡(luò)在智算領(lǐng)域發(fā)展的新路徑和新機(jī)遇,發(fā)揮的平臺(tái)優(yōu)勢(shì),引領(lǐng)智算中心網(wǎng)絡(luò)技術(shù)創(chuàng)新和產(chǎn)業(yè)合作,構(gòu)建智能算力新生態(tài),為數(shù)字經(jīng)濟(jì)注入強(qiáng)勁動(dòng)能。

轉(zhuǎn)載:ODCC訂閱號(hào)
原文地址:重塑網(wǎng)絡(luò)格局,探索未來新程!2024 ODCC夏季全會(huì)網(wǎng)絡(luò)工作組會(huì)議順利召開!
