GPU伺服器AI網路架構設計（上）

2024-05-14碼農

在大規模模型訓練的領域中，構建高效能GPU伺服器的基礎架構通常依托於由單個伺服器搭載8塊GPU單元所組成的集群系統。這些伺服器內部配置了如A100、A800、H100或 H800 等高效能GPU型號，並且隨著技術發展，未來可能還會整合{4, 8} L40S等新型號GPU。下圖展示了一個典型的配備了8塊A100 GPU的伺服器內部GPU計算硬體連線拓撲結構示意圖。

本文將依據上述圖表，對GPU計算涉及的核心概念與相關術語進行深入剖析和解讀。

關於CPU、伺服器和儲存詳細技術，請參考「」，「」、「」、「」、「」、「」、「」、「」等等。

PCIe交換機芯片

在高效能GPU計算的領域內，關鍵元件如CPU、記憶體模組、NVMe儲存裝置、GPU以及網路介面卡等透過PCIe（外設部件互連標準）匯流排或專門設計的PCIe交換機芯片實作高效順暢的連線。歷經五代技術革新，目前最新的Gen5版本確保了裝置間極為高效的互連效能。這一持續演進充分彰顯了PCIe在構建高效能計算系統中的核心地位，顯著提升了數據傳輸速度，並有力地促進了現代計算集群中各互聯裝置間的無縫協同工作。

NVLink概述

NVLink定義

NVLink是輝達（NVIDIA）開發並推出的一種匯流排及其通訊協定。NVLink采用點對點結構、串列傳輸，用於中央處理器（CPU）與圖形處理器（GPU）之間的連線，也可用於多個圖形處理器之間的相互連線。與PCI Express不同，一個裝置可以包含多個NVLink，並且裝置之間采用網格網路而非中心集線器方式進行通訊。該協定於2014年3月首次釋出，采用專有的高速訊號互連技術（NVHS）。

該技術支持同一節點上GPU之間的全互聯，並經過多代演進，提高了高效能計算套用中的雙向頻寬效能。

NVLink的發展歷程：從NVLink 1.0到NVLink 4.0

NVLink技術在高效能GPU伺服器中的演進如下圖所示：

NVLink 1.0

連線方式：采用4通道連線。

總頻寬：實作高達160 GB/s的雙向總頻寬。

用途：主要用於加速GPU之間的數據傳輸，提升協同計算效能。

NVLink 2.0

連線方式：基於6通道連線。

總頻寬：將雙向總頻寬提升至300 GB/s。

效能提升：提供更高的數據傳輸速率，改善GPU間通訊效率。

NVLink 3.0

連線方式：采用12通道連線。

總頻寬：達到雙向總頻寬600 GB/s。

新增特性：引入新技術和協定，提高通訊頻寬和效率。

NVLink 4.0

連線方式：使用18通道連線。

總頻寬：進一步增加至雙向總頻寬900 GB/s。

效能改進：透過增加通道數量，NVLink 4.0能更好地滿足高效能計算和人工智慧套用對更大頻寬的需求。

NVLink 1.0、2.0、3.0和4.0之間的關鍵區別主要在於連線通道數目的增加、所支持的總頻寬以及由此帶來的效能改進。隨著版本叠代，NVLink不斷最佳化GPU間的數據傳輸能力，以適應日益復雜且要求嚴苛的套用場景。

NVSwitch

NVSwitch是NVIDIA專為滿足高效能計算和人工智慧套用需求而研發的一款交換芯片，其核心作用在於實作同一主機內部多顆GPU之間的高速、低延遲通訊。

下圖呈現了一台典型配置8塊A100 GPU的主機硬體連線拓撲結構。

下圖展示的是浪潮NF5488A5 NVIDIA HGX A100 8 GPU組裝側檢視。在該圖中，我們可以清楚地看到，在右側六個大型散熱器下方隱蔽著一塊NVSwitch芯片，它緊密圍繞並服務於周圍的八片A100 GPU，以確保GPU間的高效數據傳輸。

NVLink交換機

NVLink交換機是一種由NVIDIA專為在分布式計算環境中的不同主機間實作GPU裝置間高效能通訊而設計制造的獨立交換裝置。不同於整合於單個主機內部GPU模組上的NVSwitch，NVLink交換機旨在解決跨主機連線問題。可能有人會混淆NVLink交換機和NVSwitch的概念，但實際上早期提及的「NVLink交換機」是指安裝在GPU模組上的切換芯片。直至2022年，NVIDIA將此芯片技術發展為一款獨立型交換機產品，並正式命名為NVLink交換機。

HBM（高頻寬記憶體）

傳統上，GPU記憶體與常見的DDR（雙倍數據速率）記憶體相似，透過物理插槽插入主機板並透過PCIe介面與CPU或GPU進行連線。然而，這種配置在PCIe匯流排中造成了頻寬瓶頸，其中Gen4版本提供64GB/s的頻寬，Gen5版本則將其提升至128GB/s。

為了突破這一限制，包括但不限於NVIDIA在內的多家GPU制造商采取了創新手段，即將多個DDR芯片堆疊整合，形成了所謂的高頻寬記憶體（HBM）。例如，在探討H100時所展現的設計，GPU直接與其搭載的HBM記憶體相連，無需再經過PCIe交換芯片，從而極大地提高了數據傳輸速度，理論上可實作顯著的數量級效能提升。因此，「高頻寬記憶體」（HBM）這一術語精準地描述了這種先進的記憶體架構。

HBM的發展歷程：從HBM1到HBM3e

頻寬單位解析

在大規模GPU計算訓練領域，系統效能與數據傳輸速度密切相關，涉及到的關鍵通道包括PCIe頻寬、記憶體頻寬、NVLink頻寬、HBM頻寬以及網路頻寬等。在衡量這些不同的數據傳輸速率時，需註意使用的頻寬單位有所不同。

在網路通訊場景下，數據速率通常以每秒位元數（bit/s）表示，且為了區分發送（TX）和接收（RX），常采用單向傳輸速率來衡量。而在諸如PCIe、記憶體、NVLink及HBM等其他硬體元件中，頻寬指標則通常使用每秒字節數（Byte/s）或每秒事務數（T/s）來衡量，並且這些測量值一般代表雙向總的頻寬容量，涵蓋了上行和下行兩個方向的數據流。

因此，在比較評估不同元件之間的頻寬時，準確辨識並轉換相應的頻寬單位至關重要，這有助於我們全面理解影響大規模GPU訓練效能的數據傳輸能力。

文章來源：

https://community.fs.com/cn/article/unveiling-the-foundations-of-gpu-computing1.html