隨著電腦網路的持續升級,協定在數據交換過程中發揮著越來越重要的作用。其中OSI七層協定是一個在20世紀80年代引入的全球標準,旨在規範電腦間通訊。該協定透過分層網路模型展示其復雜性。從實體層到套用層,每個網路層都為實作無縫通訊做出貢獻。本文將深入探討從傳統的TCP/IP協定到面向高效能計算(HPC)的RDMA技術的演變,重點關註高吞吐量和低延遲的需求。同時,還將討論網路架構、交換機的作用,以及乙太網路和InfiniBand之間的選擇,旨在實作高效能和成本效益的追求。這次探索充分表現出網路技術的動態性,其中適應力是滿足現代數據中心不斷增長需求的關鍵。
相關閱讀:
OSI協定及在高效能計算中向RDMA的過渡
協定是為電腦網路內的數據交換而建立的一組規則、標準或協定。在法律層面,OSI七層協定被視為國際標準。該協定於20世紀80年代引入,旨在透過其七層網路模型標準化電腦間通訊,以滿足開放網路的要求。
實體層規定硬體之間的通訊方式,並為物理裝置(包括介面型別和傳輸速率)建立了標準,便於傳輸位元流(由0和1表示的數據)。
數據鏈路層主要負責幀編碼和錯誤控制。它將來自實體層的數據封裝成幀並傳輸到上層。此外它可以將來自網路層的數據拆分為位元流,以便傳輸到實體層,並透過校驗和機制實作錯誤檢測和糾正。
網路層在節點之間建立邏輯電路,利用IP地址解析(每個節點都有一個IP地址)並以封包傳輸數據。
傳輸層監控兩個節點之間數據傳輸的品質,確保正確順序,並處理遺失、重復和擁塞控制等問題。
會話層管理網路裝置中的會話連線,提供會話控制和同步,協調不同裝置之間的通訊。
表示層負責數據格式轉換和加密/解密操作,確保不同裝置上的應用程式正確解釋和處理數據。
套用層向使用者提供直接的網路服務和套用介面,涵蓋電子信件、檔傳輸和遠端登入等各種應用程式。
這些層共同構成了OSI七層模型,每個層具有特定的功能和意義,促進電腦之間的通訊和數據交換。
需要註意的是,現實中的網路協定可能會偏離OSI模型,這些協定是根據實際需求和網路架構進行設計和實作的。比如TCP/IP協定,它是一個由各種協定組成的協定套件,大致分為四層:套用層、傳輸層、網路層和數據鏈路層。TCP/IP相當於是七層協定的最佳化版。
在高效能計算(HPC)領域,由於對高吞吐量和低延遲的需求,傳統的TCP/IP協定已逐漸被遠端直接記憶體存取(RDMA)技術所取代。TCP/IP同時也存在一些缺陷,如引入延遲和因多個上下文切換、CPU封裝導致的顯著CPU開銷。
RDMA作為一種技術允許透過網路介面直接存取記憶體數據,無需作業系統的參與。它可實作高吞吐量、低延遲的網路通訊,非常適用於大規模平行計算集群。雖然RDMA並沒有規定整個協定棧,但它對特定傳輸方式提出嚴格的要求,如最小的封包遺失、高吞吐量和低延遲。基於乙太網路的RDMA技術有多種變種,如InfiniBand、ROCE和iWARP,每個變種都有其技術細節和成本考慮。
葉脊架構與傳統的三層網路架構比較
交換機和閘道器在不同網路層上執行。交換機在數據鏈路層工作,利用MAC地址進行裝置標識並執行封包轉發。它促進了不同裝置之間的通訊。而閘道器在網路層操作,透過使用IP地址連線各種子網路來實作連線。
傳統的數據中心通常采用三層架構,包括接入層、匯集層和核心層。接入層通常直接連線伺服器,常用的接入交換機是TOR交換機。匯聚層層作為接入層和核心層之間的中間層。核心交換機處理進出數據中心的流量,並與匯聚層建立連線。
然而,在雲端運算的發展背景下,傳統的三層網路架構的缺陷變得越來越明顯:
頻寬浪費:每個L2交換機組管理一個POD,每個POD具有獨立的VLAN網路。使用生成樹協定(STP)通常會導致VLAN網路只有一個可活動的L2交換機,其他交換機被阻塞。這阻礙了匯聚層的橫向擴充套件。
故障域過大:由於STP演算法,網路拓撲變化在其收斂過程中可能導致潛在網路中斷。
高延遲:隨著數據中心的擴充套件,東西向流量的增加導致延遲顯著增加。在三層網路架構中,伺服器之間的通訊經過多個交換機,提升L1和L2交換機的效能也會增加使用成本。
相比之下,葉脊架構提供了顯著的優勢,包括扁平化設計、低延遲和高頻寬。在葉脊網路中,葉交換機代替傳統L3交換機,而脊交換機則充當L1交換機。
脊和葉交換機使用等價成本多路徑(ECMP)動態選擇多條路徑。在葉層的接入埠和上行鏈路沒有瓶頸的情況下,這種架構可以實作無阻塞效能。由於每個葉交換機都可以連線到每個脊交換機,如果某個脊交換機出現問題,只會導致數據中心吞吐效能輕微下降。
輝達(NVIDIA)SuperPOD架構的深入探討
SuperPOD是指透過連線多個計算節點實作高吞吐效能的伺服器集群。以輝達(NVIDIA)DGX A100 SuperPOD為例,推薦配置QM8790交換機,可提供40個埠,每個埠的速率為200G。
其采用的架構遵循一個無阻塞結構。在初始層中,DGX A100伺服器配備了8個介面,每個介面連線到8個葉交換機其中的一個。一個SuperPOD架構由20台伺服器組成,形成一個SU。因此總共需要8台SU伺服器。在第二層架構中,由於網路是無阻塞的且埠速率是統一的,脊交換機上行埠的數量應大於或等於葉交換機下行埠的數量。因此1個SU對應8個葉交換機和5個脊交換機,2個SU對應16個葉交換機和10個脊交換機,以此類推,當SU的數量超過6個時,建議添加一個L1交換機。
對於DGX A100 SuperPOD,計算網路的伺服器與交換機的比例約為1:1.17(基於7個SU)。然而考慮到儲存和網路管理的需求,DGX A100 SuperPOD和DGX H100 SuperPOD的伺服器與交換機的比例分別約為1:1.34和1:0.50。
從埠來看,DGX H100交換機的推薦配置每個SU配備31台伺服器。DGX H100交換機設計4個介面,使用QM9700交換機,可提供64個埠,每個埠速率為400G。
從交換機效能來看,DGX H100 SuperPOD的推薦配置中的QM9700交換機引入了Sharp技術。該技術利用聚合管理器在物理拓撲中構建了流聚合樹(SAT)。樹中的多個交換機進行平行計算,從而降低延遲並提高網路效能。QM8700/8790+CX6交換機支持最多2個SAT,而QM9700/9790+CX7支持最多64個SAT。隨著埠數量的增加,交換機數量減少。
交換機選擇:乙太網路、InfiniBand和RoCE的比較
乙太網路交換機和InfiniBand交換機之間的根本區別在於TCP/IP協定和RDMA之間的差異。目前乙太網路交換機更常用於傳統數據中心,而InfiniBand交換機在儲存網路和高效能計算(HPC)套用環境中更為常見。無論是乙太網路交換機還是InfiniBand交換機,都可實作400G的最大頻寬。
RoCE vs InfiniBand vs TCP/IP
關鍵考慮因素:
高可延伸性:交換機中的三種網路協定都具有高可延伸性,其中InfiniBand展現了最高的可延伸性。一個單獨的InfiniBand子網路可以支持數以萬計的節點,提供相對可延伸的架構,與InfiniBand路由器相比,可以實作幾乎無限的集群規模。
高效能:TCP/IP引入了額外的CPU處理開銷和延遲,導致相對較低的效能。透過利用現有的乙太網路基礎設施,RoCE提高了數據中心的速率和效率。然而InfiniBand交換機以序列方式逐位傳輸數據,並利用交換結構,在更快、更高效的通訊方面表現出色。
管理便利性:雖然RoCE和InfiniBand的延遲較低、效能較高,但TCP/IP通常更易於部署和管理。在網路管理中使用TCP/IP進行裝置和網路連線即可實作集中管理,節省人力成本。
成本效益:對於註重預算的企業來說,InfiniBand可能帶來挑戰,因為它依賴於昂貴的IB交換機埠來處理大量的應用程式負載,從而增加了計算和維護成本。相比之下利用乙太網路交換機的RoCE和TCP/IP提供了更具成本效益的解決方案。
網路裝置:RoCE和TCP/IP利用乙太網路交換機進行數據傳輸,而InfiniBand利用專用的IB交換機來傳輸應用程式。IB交換機通常需要與支持IB協定的裝置進行互連,使它們相對封閉且難以替換。
現代數據中心對底層互連的頻寬和延遲要求非常高。在這種情況下,傳統的TCP/IP網路協定表現不佳,引入了CPU可以實作開銷處理和較高的延遲。
對於在RoCE和InfiniBand之間進行選擇的企業來說,需仔細考慮其個人化需求和成本因素。優先考慮高效能網路連線的企業可能會更傾向於選擇InfiniBand,而追求出色效能、易於管理和成本效益的企業則可能選擇RoCE來構建數據中心。
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。