大型數(shù)據(jù)中心BGP路由協(xié)議規(guī)劃
【BGP路由協(xié)議】本文借鑒了國內(nèi)外大型互聯(lián)網(wǎng)公司的實踐經(jīng)驗,總結(jié)了一些規(guī)劃和運營BGP網(wǎng)絡(luò)的方法。
本文借鑒了國內(nèi)外大型互聯(lián)網(wǎng)公司的實踐經(jīng)驗,總結(jié)了一些規(guī)劃和運營BGP網(wǎng)絡(luò)的方法
前言
在之前的文章《大型數(shù)據(jù)中心路由協(xié)議選擇》中,介紹到邊界網(wǎng)關(guān)協(xié)議(BGP)已經(jīng)成為大型數(shù)據(jù)中心(IDC)優(yōu)先選擇的路由協(xié)議。眾所周知,BGP最初是為不同自治系統(tǒng)之間的互通設(shè)計的,而并非面向IDC內(nèi)部。在BGP引入到數(shù)據(jù)中心場景時,也曾經(jīng)出現(xiàn)“水土不服”,問題諸多。面對這些問題,聰明的網(wǎng)絡(luò)工程師們對BGP做了哪些優(yōu)化?數(shù)據(jù)中心BGP網(wǎng)絡(luò)規(guī)劃需要考慮哪些問題?本文借鑒了國內(nèi)外大型互聯(lián)網(wǎng)公司的實踐經(jīng)驗,拋磚引玉,粗淺分析一二。
大型數(shù)據(jù)中心組網(wǎng)架構(gòu)

▲ 圖1:大型數(shù)據(jù)中心Spine-Leaf組網(wǎng)架構(gòu)(內(nèi)網(wǎng))
面對數(shù)據(jù)中心業(yè)務對可靠性近乎苛刻的要求,現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)的重要設(shè)計方法是假定網(wǎng)絡(luò)設(shè)備和鏈路都是不可靠的:目標在于當這些不可靠的設(shè)備或者鏈路出現(xiàn)故障時,也能通過自愈消除對業(yè)務產(chǎn)生的不良影響。基于此,Leaf-Spine (Leaf:葉節(jié)點,Spine:脊節(jié)點)的組網(wǎng)架構(gòu)已經(jīng)成為數(shù)據(jù)中心主流。如圖1所示,這種CLOS多級交換網(wǎng)絡(luò)為數(shù)據(jù)中心帶來的顯著變化是產(chǎn)生了大量的等價設(shè)備和路徑,從而消除了單點故障,使得網(wǎng)絡(luò)架構(gòu)具備高可靠、高性能以及強大的橫向擴展(Scale-out)能力。
在這樣的數(shù)據(jù)中心架構(gòu)下,BGP路由協(xié)議往往會被部署到CLOS網(wǎng)絡(luò)的所有層級(如圖1的TOR,Leaf,Spine等設(shè)備),用來為數(shù)據(jù)中心形成簡單、統(tǒng)一的超大規(guī)模網(wǎng)絡(luò)。對于BGP的部署來說,除了滿足IPv4、IPv6路由傳遞的基本能力外, BGP的快速收斂、靈活控制、方便運維等能力也是部署設(shè)計的關(guān)鍵點。
BGP部署設(shè)計要點
本文的目的在于為IDC的BGP路由部署設(shè)計提供一些方法參考,場景聚焦在IDC內(nèi)部Underlay路由設(shè)計。

▲ 圖2:數(shù)據(jù)中心BGP部署設(shè)計要點
如圖2所示,在一個典型的三級CLOS數(shù)據(jù)中心組網(wǎng)中,BGP設(shè)計要點大致可以分為兩部分:
一、BGP基礎(chǔ)能力規(guī)劃,包括:
- 為Tier 1-3設(shè)備規(guī)劃AS number;
- 基礎(chǔ)BGP參數(shù)配置,設(shè)備間建立BGP鄰居;
- 為CLOS網(wǎng)絡(luò)生成ECMP等價路由;
- 對不同類型的BGP路由進行路由屬性控制;
- 制定路由傳遞的規(guī)則;
- 提供IPv4/IPv6雙棧能力;
二、BGP運維能力規(guī)劃,包括:
- 使用雙向轉(zhuǎn)發(fā)檢測協(xié)議(BFD)加快故障收斂;
- 提供不間斷的業(yè)務能力。
BGP基礎(chǔ)能力規(guī)劃
1、AS number規(guī)劃
BGP的AS number分為公共AS和私有AS。在IDC內(nèi)部,雖然AS號不會通告給外部網(wǎng)絡(luò),但為了保障安全性,以及延續(xù)使用習慣,仍推薦使用私有AS號。
舊的BGP版本(RFC1771定義)留給AS號的長度范圍是2個字節(jié),其中用于私有的AS號為1023 個(64512~65534),不足以應付大型IDC成千上萬的網(wǎng)元數(shù)量。對于這個問題目前有兩種解決方案:
- 新的RFC4893《BGP Support for Four-octet AS Number Space》定義了4字節(jié)的BGP AS number。這使得AS number和IPv4地址一樣多,其中可用于私有AS的范圍達到9千萬個(4200000000~4294967294)。足以為IDC內(nèi)部的每臺網(wǎng)絡(luò)設(shè)備,甚至每臺主機分配一個獨立的AS number。
- 考慮到AS number使用的簡潔,并確保所有設(shè)備都能支持,推薦使用64512~65534的私有AS號,并對AS號碼進行全局規(guī)劃,同一個AS number可以被多個設(shè)備重復使用。
以下是一個推薦的AS number分配示例:

▲ 圖3:IDC AS number分配示例
2、BGP基礎(chǔ)參數(shù)配置
這部分是數(shù)據(jù)中心實現(xiàn)BGP互通的基礎(chǔ),推薦如下配置:
BGP鄰居建立
BGP是基于TCP來建立連接的,因此需要為BGP指定一個IP地址用于建立BGP會話。
在IDC內(nèi)部推薦使用設(shè)備的直連接口地址建立BGP會話。
BGP的Router-id
僅僅是一個標識,設(shè)置為交換機的管理口地址或者loopback地址都是不錯的方法。
BGP計時器
BGP需要使用keepalive消息來實現(xiàn)會話的保活,確定下一跳的可達性。如前文所述,BGP最早是設(shè)計應用于不同自治系統(tǒng)(服務商)之間互聯(lián)的。不同AS之間路由的穩(wěn)定性比快速收斂更為重要,為了防止路由震蕩,BGP協(xié)議默認的計時器非常長,其keepalive/hold timer分別是60S和180S。而在數(shù)據(jù)中心內(nèi)部,故障的快速收斂更為重要,推薦采用1S/3S的BGP計時器配置加快收斂。BGP還有另外一個重要的計時器:Advertisement Interval,即發(fā)布路由通告的間隔。在這個周期內(nèi)的BGP事件會被緩存起來,等待計時器到了后再統(tǒng)一發(fā)送。BGP默認的通告間隔是30S。在數(shù)據(jù)中心需要立刻通告變化,因此推薦的配置是0 S。
以銳捷RGOS軟件為例,需要在BGP進程下,對計時器進行配置:

其他推薦的配置
bgp log-neighbor-changes :不打開 debug 的情況下記錄BGP 的狀態(tài)變化信息。
3、BGP ECMP
對于CLOS網(wǎng)絡(luò)而言,等價多路徑是構(gòu)筑網(wǎng)絡(luò)可靠性、穩(wěn)定性的基石。
BGP形成等價路由的前提是開啟“多徑”multipath的特性,以銳捷RGOS為例,需要配置:

以上只是開啟了BGP的多路徑能力,接下來需要利用BGP選路的原則,把把多條鏈路的的下一跳都放入路由表中形成ECMP。13條BGP選路原則中,兩條路由等價并執(zhí)行負載均衡的判斷標準是:前8個條件都相同。在數(shù)據(jù)中心BGP規(guī)劃中,這前8個條件只需要考慮AS_PATH即可,因為其他條件在IDC都是一致或者無需關(guān)心的。
對于AS-PATH屬性,在缺省情況下是要求精確比較的,只有AS-PATH的長度和具體AS Number相同時才可能成為等價路徑。依據(jù)前面的AS Number規(guī)劃,每臺TOR都具備不同的AS號。這樣Leaf南向去往同組兩臺TOR設(shè)備的路由無法實現(xiàn)負載分擔。上述問題的解決方案是在Leaf設(shè)備上使能AS-PATH 寬松比較,以銳捷RGOS為例,需要配置:

如前文的AS規(guī)劃,在同一Pod中,所有Leaf的AS number相同,因此無論是哪一臺Leaf設(shè)備發(fā)送路由,在TOR上看到的AS-PATH總是一致的。因此Leaf上無需開啟寬松比較模式。
此外,Leaf和TOR之間存在大量的等價鄰居,擁有一致的配置策略。實際的部署過程中推薦使用BGP peer-group功能來簡化配置。
在銳捷RGOS做如下配置實現(xiàn)該功能:

4、BGP路由屬性規(guī)劃
BGP具備豐富的擴展屬性,可以實現(xiàn)強大的路由控制,當前IDC中用的較多的是BGP community屬性,可以很大程度簡化路由策略。在IDC當中,我們常常會使用到私有的團體屬性,用來為前綴加上管理的標記。私有community使用的是AS:number的格式,其中AS是指本地AS號或者對等體AS號,而number是指本地分配好的,用來表示可以應用策略的一組團體。實際使用中我們可以用更簡潔的community標記,比如為業(yè)務網(wǎng)段打上1:1屬性,為內(nèi)網(wǎng)匯總路由打上2:2屬性等,并基于此做路由傳遞的精細控制。
5、制定路由傳遞規(guī)則

▲ 圖4:數(shù)據(jù)中心BGP路由通告規(guī)劃
如圖4所示,多組TOR+Leaf組成一個POD(最小交付單元,Point of delivery,作為數(shù)據(jù)中心基本物理設(shè)計單元)。Spine負責橫向連接多個POD,而MAN/DCI負責提供跨區(qū)域的互聯(lián)。IDC的BGP路由規(guī)劃建議如下:
- 北向路由傳遞
TOR至Leaf至Spine至MAN/DCI,逐級通告業(yè)務網(wǎng)段+管理網(wǎng)段+Loopback,在去堆疊場景時TOR需要向Spine通告主機路由。
- 南向路由傳遞
MAN/DCI至Spine至Leaf,傳遞整個內(nèi)網(wǎng)的匯總路由,比如10.0.0.0/8;172.16.0.0/12;192.168.0.0/16。而Leaf至TOR,除了通告內(nèi)網(wǎng)匯總路由外,還需要通告本Pod的業(yè)務網(wǎng)段+管理網(wǎng)段+Loopback(當Leaf上行鏈路故障時,同POD的流量仍可以匹配明細路由,通過Spine轉(zhuǎn)發(fā))。
值得注意的是
目前TOR層級越來越多地使用了去堆疊技術(shù)實現(xiàn)服務器雙歸(推薦參考技術(shù)盛宴的另一篇文章《如何實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)“去”堆疊》)。在去堆疊場景下,Leaf會從ToR交換機上接收到大量的主機路由(取決于Pod內(nèi)主機數(shù)量,可能是數(shù)以萬計),Leaf在TOR之間傳遞主機路由,很可能導致TOR交換機路由容量超限,因此需要在TOR的收方向做策略,過濾掉其他TOR發(fā)過來的主機路由。
6、BGP雙棧規(guī)劃
近年來國家大力推動IPv6建設(shè),實際上大型IDC私網(wǎng)地址也面臨枯竭。因此在IDC內(nèi)部署IPv4/IPv6雙棧,也是迫在眉睫的需求。
BGP本身支持多協(xié)議,可以在同一個BGP進程中支持v4/v6雙棧。一般的做法是為BGP v4和v6鄰居分別建立BGP會話,但這樣相當于增加了一倍的配置和維護工作量。實際上,BGP v4的update消息可以通過v6建立的 TCP連接來發(fā)送,反之亦然,即單個連接允許多種協(xié)議族的消息通告。

▲ 圖5:在IPv6 Session上通告IPv4路由信息
如圖5所示,銳捷網(wǎng)絡(luò)提供了一種優(yōu)化方案:只建立單會話來承載雙棧的路由,這樣做的好處除了簡化配置、節(jié)省IP,還為類似BFD for BGP等協(xié)議的部署減少了一半的性能消耗。
BGP運維能力規(guī)劃
除了要考慮BGP基礎(chǔ)能力的規(guī)劃,數(shù)據(jù)中心對于BGP網(wǎng)絡(luò)可運維能力也提出了很高的要求。常見的BGP運維能力的設(shè)計包括如下幾點:
1、使用BFD技術(shù)加速BGP網(wǎng)絡(luò)收斂
雖然IDC網(wǎng)絡(luò)是以高度冗余來構(gòu)建的,但網(wǎng)絡(luò)的可靠性仍受限于網(wǎng)絡(luò)設(shè)備檢測出故障,并重新將流量路由到其他的路徑的能力(尤其是在光模塊或者光纖出現(xiàn)單通的極端情況下)。當下數(shù)據(jù)中心,故障收斂時間要求越低越好(云業(yè)務要求做到亞秒級)。如前文所述,可以通過修改BGP計時器加速收斂,但這種慢hello機制收斂時間盡快也是秒級,還不足以滿足要求。
而BFD可以提供毫秒級的檢測精度,通過與BGP聯(lián)動,可以實現(xiàn)BGP路由快速收斂,確保業(yè)務連續(xù)。在數(shù)據(jù)中心IDC中推薦開啟BFD for BGP的設(shè)置,考慮到設(shè)備性能,全端口開啟時推薦采用300ms*3配置。
以銳捷RGOS軟件為例,BFD主要配置如下:

2、不間斷業(yè)務能力-BGP快速切換
BGP路由收斂需要在路由表中刪除失效路由,并增加新的路由,同時在芯片轉(zhuǎn)發(fā)表中實現(xiàn)對應的增、刪。在存在大量路由的情況下,逐條刪除并刷新路由表需要一定的時間,收斂時間可能達到數(shù)秒甚至數(shù)十秒。銳捷RGOS軟件在路由收斂上提供了優(yōu)化的手段:支持前綴無關(guān)收斂。如圖6所示,Leaf 1設(shè)備到Spine設(shè)備所有EBGP鄰居都失效時,Leaf 1會向所有TOR通告去往Spine的 AS不可達。TOR接收到此消息,查找預先分配好的對應的ID索引(依據(jù)Spine的AS號及Leaf的Router-ID分配),通告轉(zhuǎn)發(fā)表進行下一跳切換,從而實現(xiàn)業(yè)務的快速收斂,其收斂速度不再受限于路由條目數(shù)。(某大型互聯(lián)網(wǎng)公司實測12K路由,收斂時間0.7秒)

▲ 圖6:BGP前綴無關(guān)收斂
3、不間斷業(yè)務能力-BGP NSR
數(shù)據(jù)中心的Leaf/Spine設(shè)備對可靠性要求比較高,大多數(shù)配置了雙管理板;對于TOR設(shè)備,在堆疊組網(wǎng)場景下,也實現(xiàn)了類似雙管理板的效果。主備管理板在發(fā)生切換時,由于狀態(tài)信息的不一致很容易引起協(xié)議震蕩。
NSR(None-Stop-Routing,不間斷路由),是為了實現(xiàn)交換機管理板主備切換時,在協(xié)議的重新啟動過程中路由不間斷而設(shè)計的。使能NSR功能后,會打開TCP nss(none-stop-service)服務,開始備份相關(guān)鄰居以及路由信息到從板。在管理板主備切換過程中,NSR 功能使網(wǎng)絡(luò)拓撲保持穩(wěn)定,維持鄰居狀態(tài)和轉(zhuǎn)發(fā)表,保障關(guān)鍵業(yè)務不中斷。
4、不間斷業(yè)務能力-BGP平滑退出和延遲發(fā)布
BGP平滑退出:在CLOS數(shù)據(jù)中心網(wǎng)絡(luò)中,在對設(shè)備進行隔離升級等類似操作時,使用BGP平滑退出功能可以確保業(yè)務不斷流或者很少斷流。
其實現(xiàn)步驟是:
- 首先向鄰居設(shè)備通告優(yōu)先級低的路由(local-preference 值為0 或med 值為4294967295),并且會攜帶知名的gshut community,從而使鄰居設(shè)備進行路由更新,使其流量預先切換到備份鏈路或其他等價鏈路上。
- 接著再延遲一定時間,確保路由學習完成之后,斷開與鄰居設(shè)備間的BGP 連接。
BGP延遲發(fā)布:在設(shè)備重啟時,可能會存在路由表還未下發(fā)到本地的硬件表項,卻將路由信息通告給鄰居,從而提前引流導致流量轉(zhuǎn)發(fā)異常的情況。為避免此問題,可以設(shè)置BGP在整機重啟時把發(fā)布的路由調(diào)整為低優(yōu)先級
該能力建議在設(shè)備中預配置,以銳捷RGOS為例,需配置:

寫在最后
規(guī)劃、建設(shè)和運營好數(shù)據(jù)中心BGP網(wǎng)絡(luò),是一件非常不容易的事情,這需要大量的實踐經(jīng)驗積累。所幸的是BGP在IDC的應用已經(jīng)日趨成熟,大型互聯(lián)網(wǎng)公司、運營商有非常多實踐案例可以參考。銳捷網(wǎng)絡(luò)也有幸參與其中,為騰訊、阿里巴巴、字節(jié)跳動等客戶交付了多個大型BGP數(shù)據(jù)中心網(wǎng)絡(luò)。
關(guān)于BGP性能優(yōu)化以及更多BGP運維特性,敬請期待技術(shù)盛宴后續(xù)分享。
相關(guān)推薦:
相關(guān)標簽:
點贊
相關(guān)產(chǎn)品
-
32口100G數(shù)據(jù)中心盒式接入交換機,支持向下兼容40G,RG-S6510-32CQ
-
數(shù)據(jù)中心網(wǎng)絡(luò)高密框式核心交換機,4業(yè)務插槽,支持10G/40G/100G/200G/400G線卡,RG-N18006-X
-
48口25G數(shù)據(jù)中心盒式接入交換機,100G上行(支持向下兼容),RG-S6510-48VS8CQ
-
數(shù)據(jù)中心網(wǎng)絡(luò)高密框式核心交換機,16業(yè)務插槽,支持10G/40G/100G/200G線卡,RG-N18018-X
-
數(shù)據(jù)中心網(wǎng)絡(luò)高密框式核心交換機,8業(yè)務插槽,支持10G/40G/100G/200G/400G線卡,RG-N18010-X
更多技術(shù)博文
-
多速率交換機是什么?一文明白其原理、優(yōu)勢與銳捷方案推薦本文用通俗語言詳解多速率交換機是什么,包括其工作原理、三大核心優(yōu)勢及四大應用場景。文末為您推薦銳捷RG-S6100系列與RG-S5315-E系列交換機的選型方案,助您實現(xiàn)平滑網(wǎng)絡(luò)升級。
-
#交換機
-
-
解密DeepSeek-V3推理網(wǎng)絡(luò):MoE架構(gòu)如何重構(gòu)低時延、高吞吐需求?DeepSeek-V3發(fā)布推動分布式推理網(wǎng)絡(luò)架構(gòu)升級,MoE模型引入大規(guī)模專家并行通信,推理流量特征顯著變化,Decode階段對網(wǎng)絡(luò)時度敏感。網(wǎng)絡(luò)需保障低時延與高吞吐,通過端網(wǎng)協(xié)同負載均衡與擁塞控制技術(shù)優(yōu)化性能。高效運維實現(xiàn)故障快速定位與業(yè)務高可用,單軌雙平面與Shuffle多平面組網(wǎng)方案在低成本下滿足高性能推理需求,為大規(guī)模MoE模型部署提供核心網(wǎng)絡(luò)支撐。
-
#交換機
-
-
高密場景無線網(wǎng)絡(luò)新解法:銳捷Wi-Fi 7 AP 與 龍伯透鏡天線正式成團銳捷網(wǎng)絡(luò)在中國國際大學生創(chuàng)新大賽(2025)總決賽推出旗艦Wi-Fi 7無線AP RG-AP9520-RDX及龍伯透鏡天線組合,針對高密場景實現(xiàn)零卡頓、低時延和高并發(fā)網(wǎng)絡(luò)體驗。該方案通過多檔賦形天線和智能無線技術(shù),有效解決干擾與覆蓋問題,適用于場館、辦公等高密度環(huán)境,提供穩(wěn)定可靠的無線網(wǎng)絡(luò)解決方案。
-
#無線網(wǎng)
-
#Wi-Fi 7
-
#無線
-
#放裝式AP
-
-
打造“一云多用”的算力服務平臺:銳捷高職教一朵云2.0解決方案發(fā)布銳捷高職教一朵云2.0解決方案幫助學校構(gòu)建統(tǒng)一云桌面算力平臺,支持教學、實訓、科研和AI等全場景應用,實現(xiàn)一云多用。通過資源池化和智能調(diào)度,提升資源利用效率,降低運維成本,覆蓋公共機房、專業(yè)實訓、教師辦公及AI教學等多場景需求,助力教育信息化從分散走向融合,推動規(guī)模化與個性化培養(yǎng)結(jié)合。
-
#云桌面
-
#高職教
-