AI網路中GPU與光模組的比例和需求分析

2024-04-21碼農

市場上存在多種計算光模組與GPU比例的方法，導致結果不相同。造成這些差異的主要原因是不同網路結構中光模組數量的波動。所需的光模組的準確數量主要取決於幾個關鍵因素。

相關連結：

、、

網卡型號

主要包括兩個網卡，ConnectX-6 （200Gb/s，主要用於A100）和ConnectX-7 （400Gb/s，主要用於H100）。

同時，下一代ConnectX-8800Gb/s預計將於2024年釋出。

交換機型號

主要包括兩種型別的交換機，QM 9700交換機（32口OSFP 2x400Gb/s），共64通道400Gb/s傳輸速率，總吞吐率達到51.2Tb/s。

而QM8700交換機（40口QSFP56，共40個通道，傳輸速率為200Gb/s，總吞吐率為16Tb/s）。

單元數量（可延伸單元）

單元數量決定了交換機網路架構的配置。小批次采用兩層結構，而大批次采用三層結構。

H100 SuperPOD：每台由32個節點（DGX H100伺服器）組成，最多支持4台組成集群，采用雙層交換架構。

A100 SuperPOD：每台由20個節點（DGX A100伺服器）組成，最多支持7台組成集群。如果單元數超過5個，則需要三層交換架構。

四大網路配置下的光模組需求

A100+ConnectX6+QM8700三層網路：比例1：6，全部采用200G光模組。

A100+ConnectX6+QM9700兩層網路：1：0.75的800G光模組+1：1的200G光模組。

H100+ConnectX7+QM9700兩層網路：1：1.5的800G光模組+1：1的400G光模組。

H100+ConnectX8（尚未釋出）+QM9700三層網路：比例1：6，全部采用800G光模組。

光模組市場逐步增長：

假設2023年H100出貨量為30萬台，A100出貨量為90萬台，總需求量為315萬台200G、30萬台400G、787.5萬台800G光模組。這會導致人工智慧市場的顯著增長，預計規模將達到13.8億美元

以2024年出貨150萬台H100和150萬台A100為例，200G總需求量為75萬台，400G光模組75萬台，800G光模組675萬台。這將導致人工智慧市場的顯著增長，預計規模將達到49.7億美元，大約相當於2021年光模組行業的總市場規模。

以下是上述每種情況的細致計算分解：

第一種情況：A100+ConnectX6+QM8700三層網路

A100 GPU設計有8個計算介面，如圖所示，左側有4個介面，右側有4個介面。目前，A100 GPU的大部份出貨量都是與ConnectX-6配合使用，以實作高達200Gb/s的連線速率。

在首層架構中，每個節點有8個介面（埠），節點連線8個葉交換機。每20個節點組成一個單元（SU）。因此，在第一層中，總共需要8xSU台葉交換機，以及8xSUx20根線纜和2x8xSUx20個200G光模組。

在第二層架構中，由於采用了無阻塞設計，上行速率等於下行速率。在第一層中，總單向傳輸速率為200G乘以線纜數量。由於第二層也采用單纜200G傳輸速率，因此第二層的線纜數量應與第一層相同，需要8xSUx20線纜和2x8xSUx20 200G光模組。所需脊交換機的數量是透過將線纜數量除以葉交換機數量來計算的，得出所需的（8xSUx200）/（8xSU）脊交換機。但是，當沒有足夠的葉交換機時，為了節省脊交換機的數量，可以在葉和脊交換機之間建立多個連線（只要不超過40個介面的限制）。因此，當單元數為1/2/4/5時，所需的脊交換機數量為4/10/20/20，所需的光模組數量為320/640/1280/1600。脊交換機的數量不會成比例增加，但光模組的數量會按相同比例增加。

當系統擴充套件到七個單元時，實施第三層架構變得至關重要。由於其非阻塞配置，第三層中所需的線纜數量與第二層的線纜數量保持不變。

輝達（NVIDIA）建議的SuperPOD藍圖需要在七個單元之間整合網路，采用第三層架構及核心交換機。詳細的圖表說明了不同層的不同數量的交換機以及不同單元數所需的相關布線。

配置140台伺服器，參與的A100 GPU總數為1120，計算方式為伺服器數量140乘以8。為了支持此配置，需要部署了140台QM8790交換機以及3360根線纜。此外，該配置需要使用6720個200G光模組。A100 GPU與200G光模組的比例為1:6，具體數量為1120個GPU對應6720個光模組。

第二種情況：A100+ConnectX6+QM9700兩層網路

目前，該配置方案並不是建議配置的一種。盡管如此，隨著時間的推移，越來越多的A100 GPU可能會選擇透過QM9700交換機進行連線。這種轉變將減少所需光模組數量，但會產生對800G光模組的需求。主要區別可以在第一層的連線中看到，目前使用8根獨立200G線纜的方法將被使用QSFP轉OSFP介面卡替代，每個介面卡能夠進行兩個連線，從而實作1對4的連線。

在第一層中：對於具有7個單元和140個伺服器的集群，總共有140x8=1120個介面。這相當於280根1-4線纜，因此需要280個800G和1120個200G光模組。總共需要12台QM9700交換機。

在第二層：僅使用800G連線時，需要280x2=5600個800G光模組以及9台QM 9700交換機。

因此，對於140台伺服器和1120台A100 GPU配置，總共需要21台交換機（12+9），以及840個800G光模組和1120個200G光模組。

A100 GPU與800G光模組的比例為1120：840，簡化為1：0.75。A1000 GPU和200G光模組的比例為1：1。

第三種情況：H100+ConnectX7+QM9700兩層網路

H100架構的一個顯著特點是，盡管該卡包含8個GPU，但配備了8個400G網卡，這些網卡組合成4個800G介面。這種融合帶來了對800G光模組的巨大需求。

在第一層中，根據輝達（NVIDIA）推薦的配置，建議在伺服器介面連線1個800G光模組。這可以透過使用帶有兩根光纜（MPO）的雙埠連線來實作，其中每根光纜都插入單獨的交換機。

因此，在第一層中，每個單元由32台伺服器組成，每台伺服器連線2x4=8台交換機。在具有4個單元的SuperkPOD中，第一層總共需要4x8=32台葉交換機。

輝達（NVIDIA）建議為管理目的（UFM）保留一個節點。由於對光模組的使用影響有限，因此我們以4台裝置、總共128台伺服器為基準進行近似計算。

第一層共需要4x128=512個800G光模組和2x4x128=1024個400G光模組。

在第二層，交換機使用800G光模組直接連線。每個葉交換機都以32x400G的單向速率向下連線。為保證上行和下行速率一致，上行連線需要16x800G的單向速率。這需要16個脊交換機，因此總共需要4x8x162=1024個800G光模組。

在這種架構中，基礎設施總共需要1536個800G光模組和1024個400G光模組。考慮到SuperPOD的完整組成，其中包括128台（4x32）伺服器，每台伺服器配備8個H100 GPU，總共有1024個H100 GPU。GPU與800G光模組的比例為1：1.5，相當於1024個GPU需要1536個光模組。GPU與400G光模組的比例為1：1，1024個GPU與1024個光模組的數量相等。

第四種情況：H100+ConnectX8（暫未釋出）+QM9700三層網路

在假設的情景中，如果H100GPU的網卡升級到800G，那麽外部介面就需要從四個擴充套件到八個OSFP介面。因此，層間連線也將使用800G光模組。基本網路設計與初始方案保持一致，唯一的變化是將200G光模組替換為800G光模組。在此網路架構內，GPU數量與所需光模組保持1：65的比例，與初始場景相同。

基於上述情況整理，假如2023年H100 GPU的出貨量為300000個，A100 GPU的出貨量為900000個，將產生315萬個200G光模組、300000個400G光模組和787500個800G光模組的總需求。展望2024年，預計交付150萬台H100 GPU和150萬台A100 GPU，產生需求將包括75萬台200G光模組、75萬台400G光模組和675萬台800G光模組。

對於A100 GPU，其連線均勻分配在200G交換機和400G交換機之間。

對於H100 GPU，其連線均勻分配在200G交換機和400G交換機之間。