大模型時代，交換機技術演變、效能分析、衡量指標

2024-05-03碼農

隨著電腦網路的持續升級，協定在數據交換過程中發揮著越來越重要的作用。其中OSI七層協定是一個在20世紀80年代引入的全球標準，旨在規範電腦間通訊。該協定透過分層網路模型展示其復雜性。從實體層到套用層，每個網路層都為實作無縫通訊做出貢獻。本文將深入探討從傳統的TCP/IP協定到面向高效能計算（HPC）的RDMA技術的演變，重點關註高吞吐量和低延遲的需求。同時，還將討論網路架構、交換機的作用，以及乙太網路和InfiniBand之間的選擇，旨在實作高效能和成本效益的追求。這次探索充分表現出網路技術的動態性，其中適應力是滿足現代數據中心不斷增長需求的關鍵。

相關閱讀：

OSI協定及在高效能計算中向RDMA的過渡

協定是為電腦網路內的數據交換而建立的一組規則、標準或協定。在法律層面，OSI七層協定被視為國際標準。該協定於20世紀80年代引入，旨在透過其七層網路模型標準化電腦間通訊，以滿足開放網路的要求。

實體層規定硬體之間的通訊方式，並為物理裝置（包括介面型別和傳輸速率）建立了標準，便於傳輸位元流（由0和1表示的數據）。

數據鏈路層主要負責幀編碼和錯誤控制。它將來自實體層的數據封裝成幀並傳輸到上層。此外它可以將來自網路層的數據拆分為位元流，以便傳輸到實體層，並透過校驗和機制實作錯誤檢測和糾正。

網路層在節點之間建立邏輯電路，利用IP地址解析（每個節點都有一個IP地址）並以封包傳輸數據。

傳輸層監控兩個節點之間數據傳輸的品質，確保正確順序，並處理遺失、重復和擁塞控制等問題。

會話層管理網路裝置中的會話連線，提供會話控制和同步，協調不同裝置之間的通訊。

表示層負責數據格式轉換和加密/解密操作，確保不同裝置上的應用程式正確解釋和處理數據。

套用層向使用者提供直接的網路服務和套用介面，涵蓋電子信件、檔傳輸和遠端登入等各種應用程式。

這些層共同構成了OSI七層模型，每個層具有特定的功能和意義，促進電腦之間的通訊和數據交換。

需要註意的是，現實中的網路協定可能會偏離OSI模型，這些協定是根據實際需求和網路架構進行設計和實作的。比如TCP/IP協定，它是一個由各種協定組成的協定套件，大致分為四層：套用層、傳輸層、網路層和數據鏈路層。TCP/IP相當於是七層協定的最佳化版。

在高效能計算（HPC）領域，由於對高吞吐量和低延遲的需求，傳統的TCP/IP協定已逐漸被遠端直接記憶體存取（RDMA）技術所取代。TCP/IP同時也存在一些缺陷，如引入延遲和因多個上下文切換、CPU封裝導致的顯著CPU開銷。

RDMA作為一種技術允許透過網路介面直接存取記憶體數據，無需作業系統的參與。它可實作高吞吐量、低延遲的網路通訊，非常適用於大規模平行計算集群。雖然RDMA並沒有規定整個協定棧，但它對特定傳輸方式提出嚴格的要求，如最小的封包遺失、高吞吐量和低延遲。基於乙太網路的RDMA技術有多種變種，如InfiniBand、ROCE和iWARP，每個變種都有其技術細節和成本考慮。

葉脊架構與傳統的三層網路架構比較

交換機和閘道器在不同網路層上執行。交換機在數據鏈路層工作，利用MAC地址進行裝置標識並執行封包轉發。它促進了不同裝置之間的通訊。而閘道器在網路層操作，透過使用IP地址連線各種子網路來實作連線。

傳統的數據中心通常采用三層架構，包括接入層、匯集層和核心層。接入層通常直接連線伺服器，常用的接入交換機是TOR交換機。匯聚層層作為接入層和核心層之間的中間層。核心交換機處理進出數據中心的流量，並與匯聚層建立連線。

然而，在雲端運算的發展背景下，傳統的三層網路架構的缺陷變得越來越明顯：

頻寬浪費：每個L2交換機組管理一個POD，每個POD具有獨立的VLAN網路。使用生成樹協定（STP）通常會導致VLAN網路只有一個可活動的L2交換機，其他交換機被阻塞。這阻礙了匯聚層的橫向擴充套件。

故障域過大：由於STP演算法，網路拓撲變化在其收斂過程中可能導致潛在網路中斷。

高延遲：隨著數據中心的擴充套件，東西向流量的增加導致延遲顯著增加。在三層網路架構中，伺服器之間的通訊經過多個交換機，提升L1和L2交換機的效能也會增加使用成本。

相比之下，葉脊架構提供了顯著的優勢，包括扁平化設計、低延遲和高頻寬。在葉脊網路中，葉交換機代替傳統L3交換機，而脊交換機則充當L1交換機。

脊和葉交換機使用等價成本多路徑（ECMP）動態選擇多條路徑。在葉層的接入埠和上行鏈路沒有瓶頸的情況下，這種架構可以實作無阻塞效能。由於每個葉交換機都可以連線到每個脊交換機，如果某個脊交換機出現問題，只會導致數據中心吞吐效能輕微下降。

輝達（NVIDIA）SuperPOD架構的深入探討

SuperPOD是指透過連線多個計算節點實作高吞吐效能的伺服器集群。以輝達（NVIDIA）DGX A100 SuperPOD為例，推薦配置QM8790交換機，可提供40個埠，每個埠的速率為200G。

其采用的架構遵循一個無阻塞結構。在初始層中，DGX A100伺服器配備了8個介面，每個介面連線到8個葉交換機其中的一個。一個SuperPOD架構由20台伺服器組成，形成一個SU。因此總共需要8台SU伺服器。在第二層架構中，由於網路是無阻塞的且埠速率是統一的，脊交換機上行埠的數量應大於或等於葉交換機下行埠的數量。因此1個SU對應8個葉交換機和5個脊交換機，2個SU對應16個葉交換機和10個脊交換機，以此類推，當SU的數量超過6個時，建議添加一個L1交換機。

對於DGX A100 SuperPOD，計算網路的伺服器與交換機的比例約為1:1.17（基於7個SU）。然而考慮到儲存和網路管理的需求，DGX A100 SuperPOD和DGX H100 SuperPOD的伺服器與交換機的比例分別約為1:1.34和1:0.50。

從埠來看，DGX H100交換機的推薦配置每個SU配備31台伺服器。DGX H100交換機設計4個介面，使用QM9700交換機，可提供64個埠，每個埠速率為400G。

從交換機效能來看，DGX H100 SuperPOD的推薦配置中的QM9700交換機引入了Sharp技術。該技術利用聚合管理器在物理拓撲中構建了流聚合樹（SAT）。樹中的多個交換機進行平行計算，從而降低延遲並提高網路效能。QM8700/8790+CX6交換機支持最多2個SAT，而QM9700/9790+CX7支持最多64個SAT。隨著埠數量的增加，交換機數量減少。

交換機選擇：乙太網路、InfiniBand和RoCE的比較

乙太網路交換機和InfiniBand交換機之間的根本區別在於TCP/IP協定和RDMA之間的差異。目前乙太網路交換機更常用於傳統數據中心，而InfiniBand交換機在儲存網路和高效能計算（HPC）套用環境中更為常見。無論是乙太網路交換機還是InfiniBand交換機，都可實作400G的最大頻寬。

RoCE vs InfiniBand vs TCP/IP

關鍵考慮因素：

高可延伸性：交換機中的三種網路協定都具有高可延伸性，其中InfiniBand展現了最高的可延伸性。一個單獨的InfiniBand子網路可以支持數以萬計的節點，提供相對可延伸的架構，與InfiniBand路由器相比，可以實作幾乎無限的集群規模。

高效能：TCP/IP引入了額外的CPU處理開銷和延遲，導致相對較低的效能。透過利用現有的乙太網路基礎設施，RoCE提高了數據中心的速率和效率。然而InfiniBand交換機以序列方式逐位傳輸數據，並利用交換結構，在更快、更高效的通訊方面表現出色。

管理便利性：雖然RoCE和InfiniBand的延遲較低、效能較高，但TCP/IP通常更易於部署和管理。在網路管理中使用TCP/IP進行裝置和網路連線即可實作集中管理，節省人力成本。

成本效益：對於註重預算的企業來說，InfiniBand可能帶來挑戰，因為它依賴於昂貴的IB交換機埠來處理大量的應用程式負載，從而增加了計算和維護成本。相比之下利用乙太網路交換機的RoCE和TCP/IP提供了更具成本效益的解決方案。

網路裝置：RoCE和TCP/IP利用乙太網路交換機進行數據傳輸，而InfiniBand利用專用的IB交換機來傳輸應用程式。IB交換機通常需要與支持IB協定的裝置進行互連，使它們相對封閉且難以替換。

現代數據中心對底層互連的頻寬和延遲要求非常高。在這種情況下，傳統的TCP/IP網路協定表現不佳，引入了CPU可以實作開銷處理和較高的延遲。

對於在RoCE和InfiniBand之間進行選擇的企業來說，需仔細考慮其個人化需求和成本因素。優先考慮高效能網路連線的企業可能會更傾向於選擇InfiniBand，而追求出色效能、易於管理和成本效益的企業則可能選擇RoCE來構建數據中心。

相關閱讀：

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 399 元)。

溫馨提示：

掃描 二維碼 關註公眾號，點選 閱讀原文 連結獲取「 架構師技術全店資料打包匯總(全) 」電子書資料詳情。