超算網路中的主流拓撲架構

2024-03-26碼農

高效能計算場景的流量關註靜態時延的同時需要支持超大規模組網。然而傳統的 CLOS 架構作為主流網路架構，主要關註通用性，犧牲了時延和價效比。業界針對該問題開展了多樣的架構研究和新拓撲的設計， Fat-Tree 、 Dragonfly 、 Torus 是幾種常見的網路拓撲， Fat-Tree 架構實作無阻塞轉發， Dragonfly 架構網路直徑小， Torus 具有較高的擴充套件性和價效比。

相關閱讀：

Fat-Tree 胖樹架構

傳統的樹形網路拓撲中，頻寬是逐層收斂的，樹根處的網路頻寬要遠小於各個葉子處所有頻寬的總和。而 Fat-Tree 則更像是真實的樹，越到樹根，枝幹越粗，即：從葉子到樹根，網路頻寬不收斂，這是 Fat-Tree 能夠支撐無阻塞網路的基礎。 Fat-Tree 是使用最廣泛的拓撲之一，它是各種應用程式的一個很好的選擇，因為它提供低延遲並支持各種吞吐量選項 —— 從非阻塞連線到超額訂閱，這種拓撲型別最大限度地提高了各種流量模式的數據吞吐量。

Fat-Tree 架構采用 1:1 無收斂設計， Fat-Tree 架構中交換機上聯埠與下聯埠頻寬、數量保持一致，同時交換機要采用無阻塞轉發的數據中心級交換機。 Fat-Tree 架構可以透過擴充套件網路層次提升接入的 GPU 節點數量。

Fat-Tree 架構的本質是無頻寬收斂，因此，雲數據中心的 Spine-leaf 組網在無收斂的情況下，也可以認為是遵從了 Fat-Tree 架構理念。

如果交換機的埠數量為 n ，則：兩層 Fat-Tree 架構能夠接入 n²/2 張 GPU 卡，以 40 埠的 InfiniBand 交換機為例，能夠接入的 GPU 數量最多可達 800 個。三層 Fat-Tree 架構能夠接入 n （ n/2 ） *(n/2) 張 GPU 卡，以 40 埠的 InfiniBand 交換機為例，能夠接入的 GPU 數量最多可達 16000 個。

但是， Fat-Tree 架構也存在明顯的缺陷：

網路中交換機與伺服器的比值較大，需要大量的交換機和鏈路，因此，在大規模情況下成本相對較高。構建 Fat-Tree 需要的交換機數量為 5M/n （其中， M 是伺服器的數量， n 是交換機的埠數量），當交換機的埠數量 n 較小時，連線 Fat-Tree 需要的交換機數量龐大，從而增加了布線和配置的復雜性；

拓撲結構的特點決定了網路不能很好的支持 One-to-All 及 All-to-All 網路通訊模式，不利於部署 MapReduce 、 Dryad 等高效能分布式套用；

擴充套件規模在理論上受限於核心層交換機的埠數目。

Fat-Tree 架構的本質是 CLOS 架構網路，主要關註通用性和無收斂，犧牲了時延和價效比。在構建大規模集群網路時需要增加網路層數，需要更多的互聯光纖和交換機，帶來成本的增加，同時隨著集群規模增大，網路跳數增加，導致通訊時延增加，也可能會無法滿足業務低時延需求。

Dragonfly 架構

Dragonfly 是當前套用最廣泛的直連拓撲網路架構，它由 John Kim 等人在 2008 年的論文 Technology-Driven, Highly-Scalable Dragonfly Topology 中提出，它的特點是網路直徑小、成本較低，已經在高效能計算網路中被廣泛套用，也適用於多元化算力的數據中心網路。

Dragonfly 網路如下圖所示：

Dragonfly 的拓撲結構分為三層： Switch 層、 Group 層、 System 層。

Switch 層：包括一個交換機及其相連的 P 個計算節點；

Group 層：包含 a 個 Switch 層，這 a 個 Switch 層的 a 個交換機是全連線 (All-to-all) 的，換言之，每個交換機都有 a-1 條鏈路連線分別連線到其他的 a-1 台交換機；

System 層：包含 g 個 Group 層，這 g 個 Group 層也是全連線的。

對於單個 Switch 交換機，它有 p 個埠連線到了計算節點， a-1 個埠連線到 Group 內其他交換機， h 個埠連線到其他 Group 的交換機。因此，我們可以計算得到網路中的如下內容：

每個交換機的埠數為 k=p+(a-1)+h

Group 的數量為 g=ah+1

網路中一共有 N=ap(ah+1) 個計算節點

如果我們把一個 Group 內的交換機都合成一個，將它們視為一個交換機，那麽這個交換機的埠數為 k‘=a(p+h)。

不難發現，在確定了 p 、 a 、 h 、 g 四個參數之後，我們就可以確定一個 Dragonfly 的拓撲，因此，一個 Dragonfly 的拓撲可以用 dfly(p,a,h,g) 來表示， 一種推薦的較為平衡的配置是方法是： a=2p=2h 。

Dragonfly 的路由演算法主要有以下幾種：

最小路由演算法（ Minimal Routing ）：由於拓撲的性質， Minimal Routing 中最多只會有 1 條 Global Link 和 2 條 Local Link ，也就是說最多 3 跳即可到達。在任由兩個 Group 之間只有一條直連連線時（即 g=ah+1 時），最短路徑只有一條。

非最短路徑的路由演算法（ Non-Minimal Routing ）：有的地方叫 Valiant algorithm ，簡寫為 VAL ，還有的地方叫 Valiant Load-balanced routing ，簡寫為 VLB 。隨機選擇一個 Group ，先發到這個 Group 然後再發到目的地。由於拓撲的性質， VAL 最多會經過 2 條 Global Link 和 3 條 Local Link ，最多 5 跳即可到達。

自適應路由（ Adaptive Routing ）：當一個封包到達交換機時，交換機根據網路負載資訊在最短路徑路由和非最短路徑路由路徑之間進行動態選路，優先采用最短路徑轉發，當最短路徑擁塞時，透過非最短路徑轉發。因為要獲取到全域網路狀態資訊比較困難，除了 UGAL （全域自適應負載均衡路由），還提出了一系列變種自適應路由演算法，如 UGAL-L ， UGAL-G 等。

上述幾種路由，由於自適應路由能夠根據網路鏈路狀態動態調整流量轉發路徑，因此會有更好的效能表現。

Dragonfly 為各種應用程式（或通訊模式）提供了良好的效能，與其他拓撲相比，它透過直連模式，縮短網路路徑，減少中間節點數量。 64 埠交換機支持組網規模 27 萬節點，端到端交換機轉發跳數減至 3 跳。

Dragonfly 拓撲在效能和價效比方面有顯著的優勢。然而，這種優勢的實作需要依賴於有效的擁塞控制和自適應路由策略。 Dragonfly 網路在擴充套件性方面存在問題，每次需要增加網路容量時，都必須對 Dragonfly 網路進行重新布線，這增加了網路的復雜性和管理難度。

Torus 架構

隨著模型參數的增加和訓練數據的增加，單台機器算力無法滿足，儲存無法滿足，所以要分布式機器學習，集合通訊則是分布式機器學習的底層支撐，集合通訊的難點在於需要在一定的網路互聯結構的約束下進行高效的通訊，需要在效率與成本、頻寬與時延、客戶要求與品質、創新與產品化等之間進行合理取舍。

Torus 網路架構是一種完全對稱的拓撲結構，具有很多優良特性，如網路直徑小、結構簡單、路徑多以及可延伸性好等特點，非常適合集合通訊使用。索尼公司提出 2D-Torus 演算法，其主要思想就是組內 satter-reduce-> 組間 all-reduce-> 組內 all-gather 。 IBM 提出了 3D-Torus 演算法。

我們用 k-ary n-cube 來表示。 k 是排列的邊的長度， n 是排列的維度。

3-ary 3-cube拓撲如下：

以 2D-Torus 拓撲為例，可以將網路結構表達成如下的 Torus 結構。

橫向：每台伺服器 X 個 GPU 節點，每 GPU 節點透過私有協定網路互聯（如 NVLINK ）；

縱向：每台伺服器透過至少 2 張 RDMA 網卡 NIC 0 /NIC 1 透過交換機互聯。

第 1 步，橫向，先進行主機內 Ring Scatter Reduce ，將主機內 8 張卡上的梯度進行拆分與規約，這樣經過叠代，到最後每個 GPU 將有一個完整的同維梯度，該塊梯度包含所有 GPU 中該塊所對應的所有梯度的總和；

第 2 步，縱向，進行主機間 X 個縱向的 Ring All Reduce ，將每台伺服器的 X 個 GPU 上的數據進行集群內縱向全域規約；

第 3 步，橫向，進行主機內 All Gather ，將 GPUi[i=0~(X-1)] 上的梯度復制到伺服器內的其他 GPU 上；

Torus 網路架構具有如下優勢：

更低的延遲：環面拓撲可以提供更低的延遲，因為它在相鄰節點之間有短而直接的連結；

更好的局部性：在環面網路中，物理上彼此靠近的節點在邏輯上也很接近，這可以帶來更好的數據局部性並減少通訊開銷，從而降低時延和功耗。

較低的網路直徑：對於相同數量的節點，環面拓撲的網路直徑低於 CLOS 網路，需要更少的交換機，從而節省大量成本。