當前位置: 妍妍網 > 碼農

大模型時代,交換機技術演變、效能分析、衡量指標

2024-05-03碼農

隨著電腦網路的持續升級,協定在數據交換過程中發揮著越來越重要的作用。其中OSI七層協定是一個在20世紀80年代引入的全球標準,旨在規範電腦間通訊。該協定透過分層網路模型展示其復雜性。從實體層到套用層,每個網路層都為實作無縫通訊做出貢獻。本文將深入探討從傳統的TCP/IP協定到面向高效能計算(HPC)的RDMA技術的演變,重點關註高吞吐量和低延遲的需求。同時,還將討論網路架構、交換機的作用,以及乙太網路和InfiniBand之間的選擇,旨在實作高效能和成本效益的追求。這次探索充分表現出網路技術的動態性,其中適應力是滿足現代數據中心不斷增長需求的關鍵。

相關閱讀:

OSI協定及在高效能計算中向RDMA的過渡

協定是為電腦網路內的數據交換而建立的一組規則、標準或協定。在法律層面,OSI七層協定被視為國際標準。該協定於20世紀80年代引入,旨在透過其七層網路模型標準化電腦間通訊,以滿足開放網路的要求。

實體層規定硬體之間的通訊方式,並為物理裝置(包括介面型別和傳輸速率)建立了標準,便於傳輸位元流(由0和1表示的數據)。

數據鏈路層主要負責幀編碼和錯誤控制。它將來自實體層的數據封裝成幀並傳輸到上層。此外它可以將來自網路層的數據拆分為位元流,以便傳輸到實體層,並透過校驗和機制實作錯誤檢測和糾正。

網路層在節點之間建立邏輯電路,利用IP地址解析(每個節點都有一個IP地址)並以封包傳輸數據。

傳輸層監控兩個節點之間數據傳輸的品質,確保正確順序,並處理遺失、重復和擁塞控制等問題。

會話層管理網路裝置中的會話連線,提供會話控制和同步,協調不同裝置之間的通訊。

表示層負責數據格式轉換和加密/解密操作,確保不同裝置上的應用程式正確解釋和處理數據。

套用層向使用者提供直接的網路服務和套用介面,涵蓋電子信件、檔傳輸和遠端登入等各種應用程式。

這些層共同構成了OSI七層模型,每個層具有特定的功能和意義,促進電腦之間的通訊和數據交換。

需要註意的是,現實中的網路協定可能會偏離OSI模型,這些協定是根據實際需求和網路架構進行設計和實作的。比如TCP/IP協定,它是一個由各種協定組成的協定套件,大致分為四層:套用層、傳輸層、網路層和數據鏈路層。TCP/IP相當於是七層協定的最佳化版。

在高效能計算(HPC)領域,由於對高吞吐量和低延遲的需求,傳統的TCP/IP協定已逐漸被遠端直接記憶體存取(RDMA)技術所取代。TCP/IP同時也存在一些缺陷,如引入延遲和因多個上下文切換、CPU封裝導致的顯著CPU開銷。

RDMA作為一種技術允許透過網路介面直接存取記憶體數據,無需作業系統的參與。它可實作高吞吐量、低延遲的網路通訊,非常適用於大規模平行計算集群。雖然RDMA並沒有規定整個協定棧,但它對特定傳輸方式提出嚴格的要求,如最小的封包遺失、高吞吐量和低延遲。基於乙太網路的RDMA技術有多種變種,如InfiniBand、ROCE和iWARP,每個變種都有其技術細節和成本考慮。

葉脊架構與傳統的三層網路架構比較

交換機和閘道器在不同網路層上執行。交換機在數據鏈路層工作,利用MAC地址進行裝置標識並執行封包轉發。它促進了不同裝置之間的通訊。而閘道器在網路層操作,透過使用IP地址連線各種子網路來實作連線。

傳統的數據中心通常采用三層架構,包括接入層、匯集層和核心層。接入層通常直接連線伺服器,常用的接入交換機是TOR交換機。匯聚層層作為接入層和核心層之間的中間層。核心交換機處理進出數據中心的流量,並與匯聚層建立連線。

然而,在雲端運算的發展背景下,傳統的三層網路架構的缺陷變得越來越明顯:

  • 頻寬浪費:每個L2交換機組管理一個POD,每個POD具有獨立的VLAN網路。使用生成樹協定(STP)通常會導致VLAN網路只有一個可活動的L2交換機,其他交換機被阻塞。這阻礙了匯聚層的橫向擴充套件。

  • 故障域過大:由於STP演算法,網路拓撲變化在其收斂過程中可能導致潛在網路中斷。

  • 高延遲:隨著數據中心的擴充套件,東西向流量的增加導致延遲顯著增加。在三層網路架構中,伺服器之間的通訊經過多個交換機,提升L1和L2交換機的效能也會增加使用成本。

  • 相比之下,葉脊架構提供了顯著的優勢,包括扁平化設計、低延遲和高頻寬。在葉脊網路中,葉交換機代替傳統L3交換機,而脊交換機則充當L1交換機。

    脊和葉交換機使用等價成本多路徑(ECMP)動態選擇多條路徑。在葉層的接入埠和上行鏈路沒有瓶頸的情況下,這種架構可以實作無阻塞效能。由於每個葉交換機都可以連線到每個脊交換機,如果某個脊交換機出現問題,只會導致數據中心吞吐效能輕微下降。

    輝達(NVIDIA)SuperPOD架構的深入探討

    SuperPOD是指透過連線多個計算節點實作高吞吐效能的伺服器集群。以輝達(NVIDIA)DGX A100 SuperPOD為例,推薦配置QM8790交換機,可提供40個埠,每個埠的速率為200G。

    其采用的架構遵循一個無阻塞結構。在初始層中,DGX A100伺服器配備了8個介面,每個介面連線到8個葉交換機其中的一個。一個SuperPOD架構由20台伺服器組成,形成一個SU。因此總共需要8台SU伺服器。在第二層架構中,由於網路是無阻塞的且埠速率是統一的,脊交換機上行埠的數量應大於或等於葉交換機下行埠的數量。因此1個SU對應8個葉交換機和5個脊交換機,2個SU對應16個葉交換機和10個脊交換機,以此類推,當SU的數量超過6個時,建議添加一個L1交換機。

    對於DGX A100 SuperPOD,計算網路的伺服器與交換機的比例約為1:1.17(基於7個SU)。然而考慮到儲存和網路管理的需求,DGX A100 SuperPOD和DGX H100 SuperPOD的伺服器與交換機的比例分別約為1:1.34和1:0.50。

    從埠來看,DGX H100交換機的推薦配置每個SU配備31台伺服器。DGX H100交換機設計4個介面,使用QM9700交換機,可提供64個埠,每個埠速率為400G。

    從交換機效能來看,DGX H100 SuperPOD的推薦配置中的QM9700交換機引入了Sharp技術。該技術利用聚合管理器在物理拓撲中構建了流聚合樹(SAT)。樹中的多個交換機進行平行計算,從而降低延遲並提高網路效能。QM8700/8790+CX6交換機支持最多2個SAT,而QM9700/9790+CX7支持最多64個SAT。隨著埠數量的增加,交換機數量減少。

    交換機選擇:乙太網路、InfiniBand和RoCE的比較

    乙太網路交換機和InfiniBand交換機之間的根本區別在於TCP/IP協定和RDMA之間的差異。目前乙太網路交換機更常用於傳統數據中心,而InfiniBand交換機在儲存網路和高效能計算(HPC)套用環境中更為常見。無論是乙太網路交換機還是InfiniBand交換機,都可實作400G的最大頻寬。

    RoCE vs InfiniBand vs TCP/IP

    關鍵考慮因素:

  • 高可延伸性:交換機中的三種網路協定都具有高可延伸性,其中InfiniBand展現了最高的可延伸性。一個單獨的InfiniBand子網路可以支持數以萬計的節點,提供相對可延伸的架構,與InfiniBand路由器相比,可以實作幾乎無限的集群規模。

  • 高效能:TCP/IP引入了額外的CPU處理開銷和延遲,導致相對較低的效能。透過利用現有的乙太網路基礎設施,RoCE提高了數據中心的速率和效率。然而InfiniBand交換機以序列方式逐位傳輸數據,並利用交換結構,在更快、更高效的通訊方面表現出色。

  • 管理便利性:雖然RoCE和InfiniBand的延遲較低、效能較高,但TCP/IP通常更易於部署和管理。在網路管理中使用TCP/IP進行裝置和網路連線即可實作集中管理,節省人力成本。

  • 成本效益:對於註重預算的企業來說,InfiniBand可能帶來挑戰,因為它依賴於昂貴的IB交換機埠來處理大量的應用程式負載,從而增加了計算和維護成本。相比之下利用乙太網路交換機的RoCE和TCP/IP提供了更具成本效益的解決方案。

  • 網路裝置:RoCE和TCP/IP利用乙太網路交換機進行數據傳輸,而InfiniBand利用專用的IB交換機來傳輸應用程式。IB交換機通常需要與支持IB協定的裝置進行互連,使它們相對封閉且難以替換。

  • 現代數據中心對底層互連的頻寬和延遲要求非常高。在這種情況下,傳統的TCP/IP網路協定表現不佳,引入了CPU可以實作開銷處理和較高的延遲。

    對於在RoCE和InfiniBand之間進行選擇的企業來說,需仔細考慮其個人化需求和成本因素。優先考慮高效能網路連線的企業可能會更傾向於選擇InfiniBand,而追求出色效能、易於管理和成本效益的企業則可能選擇RoCE來構建數據中心。

    相關閱讀:

    轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

    推薦閱讀

    更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

    全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

    溫馨提示:

    掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情