當前位置: 妍妍網 > 碼農

GPU伺服器AI網路架構設計(上)

2024-05-14碼農

在大規模模型訓練的領域中,構建高效能GPU伺服器的基礎架構通常依托於由單個伺服器搭載8塊GPU單元所組成的集群系統。這些伺服器內部配置了如A100、A800、H100或 H800 等高效能GPU型號,並且隨著技術發展,未來可能還會整合{4, 8} L40S等新型號GPU。下圖展示了一個典型的配備了8塊A100 GPU的伺服器內部GPU計算硬體連線 拓撲結構 示意圖。

本文將依據上述圖表,對GPU計算涉及的核心概念與相關術語進行深入剖析和解讀。

關於CPU、伺服器和儲存詳細技術,請參考「 」,「 」、「 」、「 」、「 」、「 」、「 」、「 」等等。

PCIe交換機芯片

在高效能GPU計算的領域內,關鍵元件如CPU、記憶體模組、NVMe儲存裝置、GPU以及網路介面卡等透過PCIe(外設部件互連標準)匯流排或專門設計的PCIe交換機芯片實作高效順暢的連線。歷經五代技術革新,目前最新的Gen5版本確保了裝置間極為高效的互連效能。這一持續演進充分彰顯了PCIe在構建高效能計算系統中的核心地位,顯著提升了數據傳輸速度,並有力地促進了現代計算集群中各互聯裝置間的無縫協同工作。

NVLink概述

NVLink定義

NVLink是輝達(NVIDIA)開發並推出的一種匯流排及其通訊協定。NVLink采用點對點結構、串列傳輸,用於中央處理器(CPU)與圖形處理器(GPU)之間的連線,也可用於多個圖形處理器之間的相互連線。與PCI Express不同,一個裝置可以包含多個NVLink,並且裝置之間采用網格網路而非中心集線器方式進行通訊。該協定於2014年3月首次釋出,采用專有的高速訊號互連技術(NVHS)。

該技術支持同一節點上GPU之間的全互聯,並經過多代演進,提高了高效能計算套用中的雙向頻寬效能。

NVLink的發展歷程:從NVLink 1.0到NVLink 4.0

NVLink技術在高效能GPU伺服器中的演進如下圖所示:

NVLink 1.0

  • 連線方式:采用4通道連線。

  • 總頻寬:實作高達160 GB/s的雙向總頻寬。

  • 用途:主要用於加速GPU之間的數據傳輸,提升協同計算效能。

  • NVLink 2.0

  • 連線方式:基於6通道連線。

  • 總頻寬:將雙向總頻寬提升至300 GB/s。

  • 效能提升:提供更高的數據傳輸速率,改善GPU間通訊效率。

  • NVLink 3.0

  • 連線方式:采用12通道連線。

  • 總頻寬:達到雙向總頻寬600 GB/s。

  • 新增特性:引入新技術和協定,提高通訊頻寬和效率。

  • NVLink 4.0

  • 連線方式:使用18通道連線。

  • 總頻寬:進一步增加至雙向總頻寬900 GB/s。

  • 效能改進:透過增加通道數量,NVLink 4.0能更好地滿足高效能計算和人工智慧套用對更大頻寬的需求。

  • NVLink 1.0、2.0、3.0和4.0之間的關鍵區別主要在於連線通道數目的增加、所支持的總頻寬以及由此帶來的效能改進。隨著版本叠代,NVLink不斷最佳化GPU間的數據傳輸能力,以適應日益復雜且要求嚴苛的套用場景。

    NVSwitch

    NVSwitch是NVIDIA專為滿足高效能計算和人工智慧套用需求而研發的一款交換芯片,其核心作用在於實作同一主機內部多顆GPU之間的高速、低延遲通訊。

    下圖呈現了一台典型配置8塊A100 GPU的主機硬體連線拓撲結構。

    下圖展示的是浪潮NF5488A5 NVIDIA HGX A100 8 GPU組裝側檢視。在該圖中,我們可以清楚地看到,在右側六個大型散熱器下方隱蔽著一塊NVSwitch芯片,它緊密圍繞並服務於周圍的八片A100 GPU,以確保GPU間的高效數據傳輸。

    NVLink交換機

    NVLink交換機是一種由NVIDIA專為在分布式計算環境中的不同主機間實作GPU裝置間高效能通訊而設計制造的獨立交換裝置。不同於整合於單個主機內部GPU模組上的NVSwitch,NVLink交換機旨在解決跨主機連線問題。可能有人會混淆NVLink交換機和NVSwitch的概念,但實際上早期提及的「NVLink交換機」是指安裝在GPU模組上的切換芯片。直至2022年,NVIDIA將此芯片技術發展為一款獨立型交換機產品,並正式命名為NVLink交換機。

    HBM(高頻寬記憶體)

    傳統上,GPU記憶體與常見的DDR(雙倍數據速率)記憶體相似,透過物理插槽插入主機板並透過PCIe介面與CPU或GPU進行連線。然而,這種配置在PCIe匯流排中造成了頻寬瓶頸,其中Gen4版本提供64GB/s的頻寬,Gen5版本則將其提升至128GB/s。

    為了突破這一限制,包括但不限於NVIDIA在內的多家GPU制造商采取了創新手段,即將多個DDR芯片堆疊整合,形成了所謂的高頻寬記憶體(HBM)。例如,在探討H100時所展現的設計,GPU直接與其搭載的HBM記憶體相連,無需再經過PCIe交換芯片,從而極大地提高了數據傳輸速度,理論上可實作顯著的數量級效能提升。因此,「高頻寬記憶體」(HBM)這一術語精準地描述了這種先進的記憶體架構。

    HBM的發展歷程:從HBM1到HBM3e

    頻寬單位解析

    在大規模GPU計算訓練領域,系統效能與數據傳輸速度密切相關,涉及到的關鍵通道包括PCIe頻寬、記憶體頻寬、NVLink頻寬、HBM頻寬以及網路頻寬等。在衡量這些不同的數據傳輸速率時,需註意使用的頻寬單位有所不同。

    在網路通訊場景下,數據速率通常以每秒位元數(bit/s)表示,且為了區分發送(TX)和接收(RX),常采用單向傳輸速率來衡量。而在諸如PCIe、記憶體、NVLink及HBM等其他硬體元件中,頻寬指標則通常使用每秒字節數(Byte/s)或每秒事務數(T/s)來衡量,並且這些測量值一般代表雙向總的頻寬容量,涵蓋了上行和下行兩個方向的數據流。

    因此,在比較評估不同元件之間的頻寬時,準確辨識並轉換相應的頻寬單位至關重要,這有助於我們全面理解影響大規模GPU訓練效能的數據傳輸能力。

    文章來源:

    https://community.fs.com/cn/article/unveiling-the-foundations-of-gpu-computing1.html

    相關閱讀:

    轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

    推薦閱讀

    更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

    全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

    溫馨提示:

    掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情