技術盛宴｜淺談AIGC算力網絡中LPO模塊的技術優勢

有網絡的地方就會有光模塊的應用，那么算力網絡中會部署哪種光模塊呢？本文將圍繞光模塊失效率，分析傳統DSP模塊的主要失效原因，結合LPO技術進行失效率對比分析，討論LPO模塊的優勢所在。

#光模塊

發布時間：2024-08-06
點擊量：
點贊：

分享至

我想評論

隨著AI技術的迅猛發展，各式各樣的AI應用走入大家的工作、學習和生活當中，比如Chatbot（聊天機器人）、虛擬主播、AIPC（人工智能個人電腦，Artificial Intelligence Personal Computer）等。為了讓用戶獲取更好的應用體驗，更快地響應時效要求，需要更好的大語言模型，更大規模的模型參數量。

相信大家也關注到，近期行業發布的Llama 3.1 模型，參數規模已達到驚人的4050億。

如此龐大的模型訓練離不開超大規模智算中心的支撐，近期馬斯克在社交平臺上宣布：xAI公司已經開始在超級計算中心的“Supercluster”進行訓練，該集群由10萬個液冷H100 GPU組成，10萬張GPU算力卡的互聯需要高速網絡通道。

隨著智算中心集群規模的不斷擴張，光市場已經占據數據中心越來越多的份額。在100G時代，光模塊和網絡的比例約為1:1；到了400G時代，光模塊和網絡的比例變為7:3，光模塊在集群中的重要性不言而喻。本文將圍繞光模塊失效率，分析傳統DSP模塊的主要失效原因，結合LPO技術進行失效率對比分析，討論LPO模塊的優勢所在。

一、算力網絡中光模塊的現狀

談到光模塊大家不會陌生，有網絡的地方就會有光模塊的應用。那么算力網絡中會部署哪種光模塊呢？

下圖展示了目前智算中心RoCE以太網方案的主流網絡架構，服務器端通過400G高速網卡接入到算力網絡中，搭載51.2T交換芯片的數據中心交換機組成三級架構支撐萬卡以上的集群規模。

智算中心RoCE以太網方案的主流網絡架構

不難看出智算中心對模塊速率的要求已經到達了400G，交換機互聯的部分甚至可以考慮采用800G互聯。

目前主流51.2T的交換芯片是112G SerDes，因此交換機側的400G光模塊對應是Q112的封裝，網卡側目前主要是OSFP的封裝，部署時根據距離選擇對應長度的型號即可。

交換機網卡部署

二、DSP光模塊工作原理

以400G Q112 VR4模塊為例分析DSP光模塊的工作原理以及各部件的關鍵作用。（SR、DR模塊結構圖大致相同，只是所用的電光轉換方案不同，SR用VCSEL，DR用EML或者硅光）

DSP光模塊工作原理

1、交換芯片發送4*112Gbps PAM4電信號進入光模塊中

2、DSP芯片會將經過的電信號進行重整形然后發到Driver端

3、Driver作為驅動將電信號傳輸到激光器處

4、VCSEL激光器把電信號轉光信號并發到光纖

5、光信號經過光纖到達對端光模塊的PD光電二極管陣列后被轉換成電信號

6、TIA將轉換后的電信號進行信號放大并送到DSP芯片

7、DSP芯片再次將電信號進行重整型后發送到交換機芯片上

三、光模塊失效率指標

失效率為何被關注

相較于交換機、服務器等設備，光模塊的結構其實是比較簡單的，但就是如此簡單的光模塊在算力網絡中也是至關重要的存在。雖然單一模塊的失效率比較低，但是放在萬卡以上的集群中也會被放大數倍。模塊的失效會造成一定概率的故障發生，故障又會導致訓練業務的中斷，重新啟動訓練需要額外的耗時，無形中增加了集群的運營成本。因此光模塊的失效率需要被重視起來。

失效率指標定義

FIT（Failures In Time）失效率是一個衡量產品或系統在單位時間內發生故障的頻率的指標。它通常用來描述在一定時間范圍內，特定數量的產品或系統預計會出現多少次故障。FIT是一個無量綱值，表示的是每十億小時內的故障次數。例如，如果一個產品在10億小時內發生了100次故障，那么它的FIT失效率就是100 FIT。這表示在觀察的時間段內，每十億小時可以預期會發生100次故障。

光模塊的失效率=模塊中所有元器件失效率的求和，比如某個光模塊的理論失效率=155.63FIT，意味著在十億小時內可以預期會發生155.63次失效。

單一模塊發生一次失效所需要的小時數量=10億/155.63≈8647744（小時）換算成一個好理解的方式即為單個模塊在8647744個小時內會出現一次失效，單看這個數據感覺模塊的可靠性非常高，但放在整個集群中我們來看看具體數據。

光模塊失效率指標

如圖所示，我們列舉了不同集群規模下所需要的光模塊數量以及所有光模塊發生一次模塊失效的間隔時間，不難看出這是一個隨著模塊數量變大而單調遞減的函數。

單一模塊的失效率在萬卡以上的集群規模中被放大了，理論上在32K卡的集群中大概每兩天就會發生一次模塊失效，這樣來看模塊的失效率還是相當值得關注的。

導致光模塊失效率變化的主要因素

有兩個主要因素會引起失效率變化，一個是模塊內部的元器件數量，另一個是模塊自身的工作溫度。

具體變化關系是：

1、模塊元器件越少，失效率越低

2、模塊工作溫度越低，失效率越低

傳統DSP光模塊失效率分析

傳統DSP模塊方案在失效率方面還存在以下缺陷：

1、模塊元器件多、工作溫度高：DSP模塊不僅有DSP芯片，還包括周邊的晶體振蕩器、Flash、電源等一系列芯片，且功耗占比超過50%，會顯著提升模塊的工作溫度。

2、模塊元器件本身失效率高：DSP模塊如果采用EML或VCSEL方案，會包括多顆分離的III-V族激光器，而激光器本身的失效率就會偏高。

基于以上分析可以看到導致DSP模塊失效的主要原因是器件數量多、工作溫度高，比如DSP及周邊芯片、EML/VCSEL激光器等。要想降低模塊的失效率還是得從根源解決問題，下面我們來介紹一下LPO(Linear-drive Pluggable Optics）模塊方案。

四、LPO光模塊解決方案

LPO模塊

LPO 模塊去掉了傳統DSP模塊中的DSP芯片，利用交換芯片中DSP進行電信號的處理，模塊中采用常規性能的Driver和TIA芯片，并選用合適的電光轉換方案，即可以實現優異的傳輸性能。電光轉換部分可以采用VCSEL、EML或者硅光方案，硅光具有更好的線性度、更低的電反射。為了保障供應以及更高的可靠性，銳捷網絡采用了硅光技術方案。更多LPO基礎概念的介紹可以參考往期文章揭秘智算中心網絡建設新利器：LPO技術的出現。

LPO模塊失效率分析

上述圖表展示了400G模塊在相同模塊工作溫度55°C情況下，不同技術方案的失效率比例關系。可以看到在相同模塊工作溫度下，LPO+硅光方案的失效率更低，其他方案失效率為LPO+硅光方案的1.31～2.34倍左右。

這樣的對比方式是從理論上評估不同模塊的失效率，因此會控制工作溫度保持不變。而在實際部署中，LPO+硅光模塊的工作溫度相較于DSP方案會更低，因此失效率可以得到進一步的降低。

殼溫對比

如上圖所示，在相同的環境溫度情況下，LPO模塊的工作溫度比DSP模塊要低15°C左右。

Radom Failure Rate VS Temperature

結合上述圖表，可以看到LPO模塊溫度從55°C降低到40°C后，失效率下降了50%，具備更高的可靠性。

400G DR4/SR4 Radom Failure Rate @ CL=60% 環境溫度相同

從實際部署場景來看，將不同技術方案的400G模塊放在相同環境溫度下進行對比，能夠看到LPO+硅光方案的失效率得到進一步降低，這就是模塊工作溫度較低帶來的收益。

總結

基于以上理論分析結合實際數據來看，LPO+硅光的方案相較于其他方案而言失效率是較低的。核心原因在于以下兩點：

1、移除DSP芯片：去掉DSP芯片后可以較大幅度降低模塊工作溫度，降低因高溫給激光器帶來的影響。

2、采用硅光技術：如下圖所示，光電轉換部分采用硅光方案后可以讓硅光芯片負責信號調制，Laser僅需要提供直流光，無需調制信號。對比EML方案需要4個激光器以及TEC，硅光方案的Laser只需要1個，減少了模塊元器件的數量，降低失效率。

采用硅光技術

五、LPO光模塊性能參數

只具備更低的模塊失效率還不足以讓LPO模塊替代DSP模塊，我們還應評估光模塊的可用性，也就是關注BER（誤碼率）和SEN（靈敏度），這兩個指標的性能參數需要能達到協議門限的標準。

光模塊BER&SEN評估方法

通過調節光衰減的大小，得到不同RX光功率下的BER，將所有測試結果匯總到一起繪制成BO曲線。

當光功率一直調小（圖表中橫坐標向左調整趨勢），直到BER等于FEC門限規定的2.4e-4（圖表中縱坐標向上調整趨勢）時，記錄此時的光功率就是光模塊的靈敏度（SEN）。通常的BER都是在沒有加光衰減器的情況下測試的，即在BER error floor區間測試的結果。

SEN越小說明光模塊越能容忍更小的光功率，對實際的部署有比較大的幫助，比如由于接頭臟污、發端光功率變小、光纖接頭插損大等會造成光功率變小的情況。

LPO DR模塊的性能參數

以下是不同方案模塊在常溫短纖場景中的測試數據

從BER圖表數據可以看到以下現象：

1、LPO DR模塊的BER和協議門限相比有5個數量級的余量。

2、LPO DR與DSP+硅光方案的BER參數接近，且優于DSP+EML方案 2～3個數量級。

從SEN圖表數據看到以下現象：

1、LPO DR模塊的SEN和協議門限相比有3.5dB的左右余量。

2、三種方案在SEN參數方面相差不大。

基于以上現象可以得出結論：LPO+硅光性能參數接近DSP+硅光，優于DSP+EML方案，因此可以替代現有的DSP DR方案。

六、LPO光模塊的其他收益

LPO光模塊除了高可靠性及高可用性這兩點外，在其他維度也具備一定的價值收益。

1、更低功耗：去掉DSP芯片后，光模塊的最大功耗可以降低51.3%左右，低于4W（殼溫70℃測試）。

LPODR4 VS DSP DR4模塊功耗對比

2、更低時延：模塊中少了DSP芯片，減少一跳，時延可以降低95%，滿足更低延遲的應用場景。

LPODR4 VS DSP DR4模塊時延對比

3、良好供應：傳統DSP模塊的DSP芯片和VCSEL激光器目前供應比較緊張，且交期比較長，大規模交付有供應風險。LPO模塊方案去掉了DSP芯片，并且采用硅光技術，避免使用供應緊張的DSP芯片和VCSEL芯片，在一定程度上規避了關鍵器件的供應風險。

七、銳捷LPO光模塊產品

銳捷網絡聚焦AIGC算力網絡場景規劃設計了三款LPO DR的自研光模塊，滿足以下三種網絡架構的互聯需求。

目前正在配合各大廠進行適配測試工作，敬請期待。

銳捷網絡，作為GenAI時代的全棧服務專家，致力于為企業提供覆蓋IaaS到PaaS的全棧產品及解決方案。我們的產品覆蓋高性能網絡與GPU算力優化調度，旨在通過創新技術解決方案，幫助客戶實現生產效率的飛躍與運營成本的優化。我們堅信，通過我們的努力，能夠為客戶打造一個更加智能、高效和可靠的未來。讓我們攜手，共同探索AI時代的每一個機遇。

相關標簽：