當前位置: 妍妍網 > 碼農

A100/H100/GH200集群:網路架構及光模組需求

2024-04-01碼農

本文來自「 」。傳統數據中心經歷了從三層架構到葉脊架構的改變,主要是為了適配數據中心東西向流量的增長。 隨著數據上雲的行程持續加速,雲端運算數據中心規模持續擴大,而其中所采用的的虛擬化、超融合系統等套用推動數據中心東西向流量大幅增長 —— 根據思科此前的數據, 2021 年數據中心相關的流量中,數據中心內部的流量占比超過 70%

關於CPU、伺服器和儲存詳細技術,請參考「 」,「 」、「 」、「 」、「 」、「 」、「 」、「 」等等。

以傳統三層架構到葉脊架構的轉變為例,葉脊網路架構下,光模組數量提升最高可達到數十 倍。

基於縮小網路瓶頸考慮,大規模 AI 集群的網路架構需要滿足大帶 寬、低時延、無失真的需求。 智算中心網路架構一般采用 Fat-Tree (胖樹)網路架構 ,具有無阻塞網路的特點。

同時為避免節點內互聯瓶頸,輝達采用 NVLink 實作卡間高效 互聯。 對比 PCIe NVLink 具有更高頻寬優勢,成為輝達視訊記憶體共享架構的基礎,創造了新的 GPU GPU 的光連線需求。

A100 :網路結構及光模組需求測算

每個 DGX A100 SuperPOD 基本部署結構資訊為: 140 台伺服器 ( 每台伺服器 8 GPU + 交換機(每台交換機 40 個埠,單埠 200G );網路拓撲結構為 IB fat-tree (胖樹)。

關於網路結構的層數: 針對 140 台伺服器,會進行三層網路結構部署(伺服器 -Leaf 層交換機 -Spine 層交換機 -Core 層交換機),每層 交換機對應的線纜數分別為 1120 -1124 -1120 根。

假設伺服器和交換機之間采用銅纜,基於一條線纜對應 2 200G 光模組計算, GPU: 交換機 : 光模組 =1:0.15:4 ;若采用全光網路, GPU: 交換機 : 光模組 =1:0.15:6

H100 :網路結構及光模組需求測算

每個 DGX H100 SuperPOD 基本部署結構資訊為: 32 台伺服器 ( 每台伺服器 8 GPU +12 台交換機;網路拓撲結構為 IB fat-tree (胖 樹),交換機單埠 400G 速率,可合並形成 800G 埠。

針對 4SU 集群,假設為全光網路、三層 Fat-Tree 架構下,伺服器和 Leaf 層交換機使用 400G 光模組, Leaf-Spine Spine-Core 使用 800G 光模組,則 400G 光模組數量為 32*8*4=256 只,使用 800G 的數量為 32*8*2.5=640 只。

GPU: 交換機 :400G 光模組 :800G 光模組 =1:0.08:1:2.5

GH200 :網路結構及光模組需求測算

針對單個 GH200 集群: 256 張超級芯片 GPU 互聯,采用 2 fat-tree 網路結構,其中兩層網路均采用 NVLink switch 來完成搭建,第一 層(伺服器和 Level 1 交換機)之間使用了 96 台交換機, Level 2 使用了 36 個交換機。 NVLink switch 的配置參數為:每台交換機擁有 32 個埠,每個埠速率為 800G 。由於 NVLink 4.0 對應互聯頻寬雙向聚合是 900GB/s ,單向為 450GB/s ,則 256 卡的集群中,接入層總上行頻寬為 115200GB/s ,考慮胖樹架構以及 800G 光模組傳輸速率( 100GB/s ), 800G 光模組總需求為 2304 。因此, GH200 集群內, GPU: 光模組 =1:9

若考慮多個 GH200 互聯, 參考 H100 架構, 3 層網路架構下, GPU:800G 光模組需求 =1:2.5 2 層網路架構下, GPU:800G 光模組 =1:1.5 。即多個 GH200 互聯情況下, GPU:800G 光模組上限 =1: 9+2.5 =1:11.5

總結:

隨著算力集群不斷提升網路效能,高速光模組需求彈性加大 。以輝達集群為例,加速卡所適配的網卡介面速率和其網路協定頻寬密切 相關, A100 GPU 支持 PCIe 4.0 ,最大支持單向頻寬為 252Gb/s ,即 PCIe 網卡速率需小於 252Gb/s ,因此搭配搭配 Mellanox HDR 200Gb/sInfiniband 網卡; H100 GPU 支持 PCIe 5.0 ,最大支持單向頻寬為 504Gb/s ,因此搭配 Mellanox NDR 400Gb/s Infiniband 網卡。

所以, A100 H100 升級,其對應的光模組需求從 200G 提升到 800G 2 400G 埠合成 1 800G );而 GH200 采用 NVLink 實作卡間互 聯,單向頻寬提升到 450GB/s ,對應 800G 需求彈性進一步提升。

H100 集群從 PCIe 5.0 提升到 PCIe 6.0 ,最大支持單向頻寬提升到 1024Gb/s ,則接入層網卡速率可提升到 800G ,即接入層可使用 800G 光模組,集群中單卡對應 800G 光模組需求彈性對應翻倍。

Meta 算力集群架構及套用

Meta 此前釋出「 Research SuperCluster」 計畫用於訓練 LLaMA 模型。 RSC 計畫第二階段, Meta 總計部署 2000 A100 伺服器, 包含 16000 A100 GPU ,集群共包含 2000 台交換機、 48000 條鏈路,對應三層 CLOS 網路架構,若采用全光網路,對應 9.6 萬個 200G 光模組,即 A100: 光模組 =1:6 ,與前文測算的 A100 架構相同。

針對 LLaMA3 的訓練, Meta 使用了 H100 GPU ,包含 IB 和乙太網路集群,最大均可支持 3.2 萬張 GPU 。針對乙太網路方案,根據 Meta 露的資訊,其算力集群仍采用了有收斂的葉脊網路架構 —— 每個機架 2 台伺服器,接入 1 TOR 交換機(采用 Wedge 400 ),一個集群中有 252 台伺服器; Cluster 交換機采用 Minipack2 OCP 機架交換機,一個集群中共使用 18 Cluster 交換機,推算收斂比為 3.5:1 ;匯聚層交換機共 18 台(采用 Arista 7800R3 ),收斂比為 7:1 。集群主要采用 400G 光模組,從集群架構來看,乙太網路方案仍 有待在協定層面進一步突破,推動無阻塞網路的構建,關註超乙太網路聯盟等進展。

AWS 算力集群架構及套用

AWS 推出了第二代 EC2 Ultra Clusters 集群,包括 H100 GPU 和自研 Trainium ASIC 方案。 AWS EC2 Ultra Clusters P5 例項(即 H100 方案)提供 3200 Gbps 的聚合網路頻寬並支持 GPUDirect RDMA ,最大可支持 2 萬張 GPU 組網; Trn1n 例項(自研 Trainium 方案)單集群 16 卡,提供 1600 Gbps 的聚合網路頻寬,最大支持 3 萬張 ASIC 組網,對應 6 EFlops 算力。

AWS EC2 Ultra Clusters 卡間互聯分別采用 NVLink H100 方案)和 NeuronLink Trainium 方案),集群互聯采用自研 EFA 網路介面卡。對比輝達方案, AWS 自研 Trainium ASIC 集群單卡上行頻寬推算為 100G 1600G 聚合頻寬 /16 =100G ),因此 AWS 目前架構中暫無 800G 光模組需求。

Google 算力集群架構及套用

Google 最新的算力集群由配置為三維環面的 TPU 陣列組成。 一維環面對應每個 TPU 連線到相鄰的 2 TPU ,二維環面為 2 個正交的 環,對應每個 TPU 連線到相鄰的 4 TPU ;目前谷歌 TPUv4 即三維環面,每個 TPU 連線到 6 個相鄰的 TPU

基於此,每個機櫃內部構建 4*4*4=64 TPU 3D 網路結構。 3D 結構的外表部份連線到 OCS ,則一個 4096 TPU 互聯對應 64 個機櫃、 48 OCS 交換機即 48*64=6144 個光模組,內部則采用 DAC 連線( 18000 條),則對應 TPU: 光模組 =1:1.5 。在 OCS 方案下,光模組需要采用波長分波多工方案,並增加環形器( Circulator )減少光纖數量,其光模組方案具有客製化特征( 800G VFR8 )。

下載連結:

走進芯時代(76):HBM叠代,3D混合鍵合成裝置材料發力點

走進芯時代(75):「半導核心材料」:萬丈高樓材料起,夯實中國「芯」地基」

走進芯時代(74):以芯助先進演算法,以算驅萬物智慧

走進芯時代(60):AI算力GPU,AI產業化再加速,智慧大時代已開啟

走進芯時代(58):高效能模擬替代漸入深水區,工業汽車重點突破

走進芯時代(57):算力大時代,處理器SOC廠商綜合對比

走進芯時代(49):「AI芯片」,AI領強算力時代,GPU啟新場景落地

走進芯時代(46):「新能源芯」,乘碳中和之風,基礎元件騰飛

走進芯時代(43):顯示驅動芯—面板國產化最後一公裏

走進芯時代(40):半導體裝置,再迎黃金時代

轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

溫馨提示:

掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情