在大規模模型訓練的領域中,構建高效能GPU伺服器的基礎架構通常依托於由單個伺服器搭載8塊GPU單元所組成的集群系統。這些伺服器內部配置了如A100、A800、H100或 H800 等高效能GPU型號,並且隨著技術發展,未來可能還會整合{4, 8} L40S等新型號GPU。下圖展示了一個典型的配備了8塊A100 GPU的伺服器內部GPU計算硬體連線 拓撲結構 示意圖。
本文將依據上述圖表,對GPU計算涉及的核心概念與相關術語進行深入剖析和解讀。
關於CPU、伺服器和儲存詳細技術,請參考「 」,「 」、「 」、「 」、「 」、「 」、「 」、「 」等等。
PCIe交換機芯片
在高效能GPU計算的領域內,關鍵元件如CPU、記憶體模組、NVMe儲存裝置、GPU以及網路介面卡等透過PCIe(外設部件互連標準)匯流排或專門設計的PCIe交換機芯片實作高效順暢的連線。歷經五代技術革新,目前最新的Gen5版本確保了裝置間極為高效的互連效能。這一持續演進充分彰顯了PCIe在構建高效能計算系統中的核心地位,顯著提升了數據傳輸速度,並有力地促進了現代計算集群中各互聯裝置間的無縫協同工作。
NVLink概述
NVLink定義
NVLink是輝達(NVIDIA)開發並推出的一種匯流排及其通訊協定。NVLink采用點對點結構、串列傳輸,用於中央處理器(CPU)與圖形處理器(GPU)之間的連線,也可用於多個圖形處理器之間的相互連線。與PCI Express不同,一個裝置可以包含多個NVLink,並且裝置之間采用網格網路而非中心集線器方式進行通訊。該協定於2014年3月首次釋出,采用專有的高速訊號互連技術(NVHS)。
該技術支持同一節點上GPU之間的全互聯,並經過多代演進,提高了高效能計算套用中的雙向頻寬效能。
NVLink的發展歷程:從NVLink 1.0到NVLink 4.0
NVLink技術在高效能GPU伺服器中的演進如下圖所示:
NVLink 1.0
連線方式:采用4通道連線。
總頻寬:實作高達160 GB/s的雙向總頻寬。
用途:主要用於加速GPU之間的數據傳輸,提升協同計算效能。
NVLink 2.0
連線方式:基於6通道連線。
總頻寬:將雙向總頻寬提升至300 GB/s。
效能提升:提供更高的數據傳輸速率,改善GPU間通訊效率。
NVLink 3.0
連線方式:采用12通道連線。
總頻寬:達到雙向總頻寬600 GB/s。
新增特性:引入新技術和協定,提高通訊頻寬和效率。
NVLink 4.0
連線方式:使用18通道連線。
總頻寬:進一步增加至雙向總頻寬900 GB/s。
效能改進:透過增加通道數量,NVLink 4.0能更好地滿足高效能計算和人工智慧套用對更大頻寬的需求。
NVLink 1.0、2.0、3.0和4.0之間的關鍵區別主要在於連線通道數目的增加、所支持的總頻寬以及由此帶來的效能改進。隨著版本叠代,NVLink不斷最佳化GPU間的數據傳輸能力,以適應日益復雜且要求嚴苛的套用場景。
NVSwitch
NVSwitch是NVIDIA專為滿足高效能計算和人工智慧套用需求而研發的一款交換芯片,其核心作用在於實作同一主機內部多顆GPU之間的高速、低延遲通訊。
下圖呈現了一台典型配置8塊A100 GPU的主機硬體連線拓撲結構。
下圖展示的是浪潮NF5488A5 NVIDIA HGX A100 8 GPU組裝側檢視。在該圖中,我們可以清楚地看到,在右側六個大型散熱器下方隱蔽著一塊NVSwitch芯片,它緊密圍繞並服務於周圍的八片A100 GPU,以確保GPU間的高效數據傳輸。
NVLink交換機
NVLink交換機是一種由NVIDIA專為在分布式計算環境中的不同主機間實作GPU裝置間高效能通訊而設計制造的獨立交換裝置。不同於整合於單個主機內部GPU模組上的NVSwitch,NVLink交換機旨在解決跨主機連線問題。可能有人會混淆NVLink交換機和NVSwitch的概念,但實際上早期提及的「NVLink交換機」是指安裝在GPU模組上的切換芯片。直至2022年,NVIDIA將此芯片技術發展為一款獨立型交換機產品,並正式命名為NVLink交換機。
HBM(高頻寬記憶體)
傳統上,GPU記憶體與常見的DDR(雙倍數據速率)記憶體相似,透過物理插槽插入主機板並透過PCIe介面與CPU或GPU進行連線。然而,這種配置在PCIe匯流排中造成了頻寬瓶頸,其中Gen4版本提供64GB/s的頻寬,Gen5版本則將其提升至128GB/s。
為了突破這一限制,包括但不限於NVIDIA在內的多家GPU制造商采取了創新手段,即將多個DDR芯片堆疊整合,形成了所謂的高頻寬記憶體(HBM)。例如,在探討H100時所展現的設計,GPU直接與其搭載的HBM記憶體相連,無需再經過PCIe交換芯片,從而極大地提高了數據傳輸速度,理論上可實作顯著的數量級效能提升。因此,「高頻寬記憶體」(HBM)這一術語精準地描述了這種先進的記憶體架構。
HBM的發展歷程:從HBM1到HBM3e
頻寬單位解析
在大規模GPU計算訓練領域,系統效能與數據傳輸速度密切相關,涉及到的關鍵通道包括PCIe頻寬、記憶體頻寬、NVLink頻寬、HBM頻寬以及網路頻寬等。在衡量這些不同的數據傳輸速率時,需註意使用的頻寬單位有所不同。
在網路通訊場景下,數據速率通常以每秒位元數(bit/s)表示,且為了區分發送(TX)和接收(RX),常采用單向傳輸速率來衡量。而在諸如PCIe、記憶體、NVLink及HBM等其他硬體元件中,頻寬指標則通常使用每秒字節數(Byte/s)或每秒事務數(T/s)來衡量,並且這些測量值一般代表雙向總的頻寬容量,涵蓋了上行和下行兩個方向的數據流。
因此,在比較評估不同元件之間的頻寬時,準確辨識並轉換相應的頻寬單位至關重要,這有助於我們全面理解影響大規模GPU訓練效能的數據傳輸能力。
文章來源:
https://community.fs.com/cn/article/unveiling-the-foundations-of-gpu-computing1.html
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。