深入剖析：RDMA在高速網路的套用與實作方式

2024-04-22碼農

遠端直接記憶體存取（RDMA）作為超高速網路記憶體存取技術的領軍者，徹底顛覆了傳統程式對遠端計算節點記憶體資源的存取模式。其卓越效能的核心在於巧妙地繞過了作業系統內核層（如套接字、TCP/IP協定棧）對數據傳輸的幹預，實作了網路通訊範式的革新性躍遷。這一戰略性的架構最佳化有效地減輕了與內核操作相關的CPU開銷，使得數據可以直接從一個節點的網路介面卡（NIC）記憶體讀寫至另一個節點，這種硬體裝置在特定場景下也被稱為主機通道介面卡（HCA）。

相關閱讀：

在硬體實作方面，RDMA技術主要依托三種關鍵技術手段得以具體實施：InfiniBand、RoCE和iWARP。其中，InfiniBand與RoCE兩種技術因其出色的效能表現及廣泛套用，已被前沿技術專家廣泛認可為行業主流選擇。透過這兩種技術，特別是在訓練大型模型等對頻寬和延遲有嚴苛要求的套用場景中，能夠充分利用RDMA所賦予的高效低延遲特性構建高效能的高速網路系統，從而顯著提高數據傳輸效率，並整體上最佳化系統的執行效能。

揭秘InfiniBand：卓越頻寬的巔峰之作

目前，InfiniBand生態系已經覆蓋了100G和200G高速傳輸的主流技術。在這其中，增強數據速率（EDR，100G）和高數據速率（HDR，200G）成為該領域的一些專有名詞。InfiniBand技術正迅速演進。

盡管InfiniBand擁有出色的效能，但由於其昂貴的成本，它經常被很多IT專業人士忽視，導致其在一般套用中的普及率相對較低。然而，在各大高校和科研機構的超級電腦中心，InfiniBand幾乎成為不可或缺的標配，尤其是對於支持關鍵的超級計算任務而言。

與傳統交換機不同，InfiniBand網路采用了獨特的「胖樹」網路拓撲結構，以確保任意兩個計算節點之間的網路卡能夠實作無縫通訊。這種胖樹結構包括兩個層次：核心層負責流量轉發並與計算節點分離，而接入層則連線各類計算節點。

在實施InfiniBand網路中的胖樹拓撲時，其高昂的成本主要源於具有36個埠的匯聚交換機。其中，一半的埠必須連線到計算節點，而另一半則需要與上層核心交換機相連以實作無失真通訊。值得註意的是，每根電纜的價格大約為1.3萬美元，並且為了保證無失真通訊，冗余連線是必需的。

正如俗話所說：「一分錢一分貨」，這正是InfiniBand的真實寫照。毫無爭議地，它提供了無與倫比的高頻寬和低延遲。根據維基百科的資料，相比乙太網路，InfiniBand的延遲顯著更低，分別為100納秒和230納秒。這卓越的效能使得InfiniBand成為全球頂尖超級電腦中不可或缺的核心技術之一，受到微軟、NVIDIA等行業巨頭以及美國國家實驗室的廣泛采用。

釋放RoCE潛力：經濟高效的RDMA解決方案探索

在電腦網路技術領域中，RoCE（乙太網路融合上的RDMA）以其較高的價效比嶄露頭角，特別是在與成本高昂的InfiniBand等技術對比時。盡管RoCE並非低成本選項，但它為使用者提供了更為經濟的途徑，在乙太網路上實作RDMA功能。近年來，RoCE技術迅速發展，並逐漸成為一種有競爭力的InfiniBand替代方案，尤其在對成本控制要求嚴苛的套用場景中表現突出。

然而，盡管具備價效比優勢，要借助RoCE實作真正的無失真網路仍面臨挑戰，整體網路成本難以低於采用InfiniBand方案的50%。

解鎖大規模模型訓練潛能：GPUDirect RDMA的關鍵作用

在大規模模型訓練的過程中，節點間通訊的成本至關重要。透過整合InfiniBand與GPU技術，GPUDirect RDMA這一顛覆性解決方案應運而生。該創新技術使得不同計算節點間的GPU能夠直接進行數據互動，無需經過記憶體和CPU層級。簡而言之，兩個節點上GPU之間的復雜通訊過程可直接經由InfiniBand網路介面卡完成，從而繞過了傳統路徑中必須透過CPU和記憶體的傳輸步驟。

在大規模模型訓練背景下，GPUDirect RDMA的重要性尤為顯著，因為模型通常儲存於GPU記憶體中。傳統的將模型復制至CPU並進一步傳輸至其他節點的過程耗時頗多，而使用GPUDirect RDMA則可以實作GPU間的直接資訊交換，大振幅提升大規模模型訓練的效率和效能表現。

最佳化大型模型網路架構：戰略配置策略分析

在大型模型套用領域，要獲得最佳效能，關鍵在於精密配置，特別是當GPU與InfiniBand網卡協同工作時。這裏參考了合作夥伴NVIDIA推出的DGX系統，它倡導了一種GPU與InfiniBand網卡一對一配對的設計理念，並樹立了行業標桿。在此架構下，一個標準計算節點能夠整合9個InfiniBand網路介面控制器（NIC），其中一個用於連線儲存系統，其余8個則分別對應單個GPU卡。

雖然這種配置方式理論上最為理想，但其成本相對較高，因此有必要探尋更具價效比的替代方案。一種有效的折衷策略是采用1:4的InfiniBand網卡與GPU卡的比例。

實際部署中，GPU和InfiniBand網卡均透過PCI-E交換機進行互聯，一般情況下每個交換機可支持2塊GPU。理想的狀況是每塊GPU都能精準分配到專屬的InfiniBand網卡資源。然而，當兩塊GPU共享同一個InfiniBand網卡和PCI-E交換機時，會由於對共享資源的競爭而產生挑戰。

InfiniBand網卡的數量直接影響著競爭程度及節點間通訊效率，這一點可以透過附帶圖表生動展示。值得註意的是，在僅配備一塊100 Gbps網卡的情況下，頻寬可達12 GB/s，隨著網卡數量增加，頻寬幾乎呈現線性增長趨勢。設想一下，如果采用8塊H100 GPU卡搭配8塊400G InfiniBand NDR卡的配置方案，則能帶來極為震撼的數據傳輸速率。

為每塊GPU配備一張獨立的網卡是最理想的配置情況：這樣可以最大限度地減少資源爭搶，提高節點間的通訊效率和整體效能表現。

構建卓越：大型模型網路架構的軌式最佳化設計

在大規模模型運算的前沿領域，構建卓越效能的關鍵在於精心設計一套客製化的「軌式」網路拓撲結構，該結構是對傳統高效能計算（HPC）中胖樹架構的一種革新與最佳化。

此架構示意圖生動展示了基礎版胖樹拓撲與經過軌式最佳化後的對比。系統內核心元件包括兩台MQM8700系列HDR（高數據速率）交換機，它們透過四條HDR電纜實作高速互聯，確保了極高的頻寬和低延遲通訊。每個DGX GPU節點裝備了九塊InfiniBand（IB）網卡，這些網卡在圖中標註為主機通道介面卡（HCAs），以滿足不同功能需求。

其中特別指派一塊IB卡作為儲存連線專用介面（Storage Target），其余八塊則專為大規模模型訓練任務提供服務。具體布線策略如下：HCA1、HCA3、HCA5以及HCA7分別對接至第一個HDR交換機，而HCA2、HCA4、HCA6及HCA8則對應地與第二個交換機建立連結，以此形成了一種對稱且高效的多路徑傳輸體系，有力支撐了大規模平行計算環境下復雜模型的高效訓練和數據交換。

為了營造高效流暢的網路環境，建議采用如圖所示的全無阻塞、深度最佳化的軌式網路拓撲結構。在該設計中，每個DGX GPU節點均配備了八個InfiniBand (IB) 網卡，且每一個網卡都直接對接到一個獨立的交換機單元，這些被稱作葉交換機的裝置總計部署了八台。連線布局極其精細：例如，HCA1與第一台葉交換機相連，HCA2與第二台相接，以此遞增模式確保每張網卡都能專享一條高速鏈路。

後續的網路架構圖清晰地揭示了底層細節，其中兩台綠色標識的交換機代表脊交換機，它們負責實作四台藍色標識的葉交換機之間的高速互聯。整個系統透過80條線纜將藍色和綠色交換機緊密耦合在一起，而藍色葉交換機則策略性地設定於下層，直接與計算節點建立物理連線。

這種配置的核心優勢在於其出色的可延伸性和低延遲特性，它能有效消除潛在的數據傳輸瓶頸，確保每一張IB卡都能夠以最優速率與網路中的任何其他IB卡進行直接通訊。這意味著任意GPU能夠以前所未有的效率實作無縫、即時的遠端記憶體存取，從而極大地提升了大規模平行計算環境中GPU間的協同工作效率。

在追求高效能且零損失的復雜網路環境中，選用InfiniBand或RoCE作為基礎架構的核心決策應緊密貼合您的特定套用需求和現有設施條件。兩者皆為業界翹楚，憑借低延遲、高吞吐量以及對CPU資源的極低占用率，在高效能計算（HPC）領域中展現出了卓越的適應力。

相關閱讀：

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 399 元)。

溫馨提示：

掃描 二維碼 關註公眾號，點選 閱讀原文 連結獲取「 架構師技術全店資料打包匯總(全) 」電子書資料詳情。