當前位置: 妍妍網 > 碼農

AI伺服器NVLink版與PCIe版差異分析

2024-06-11碼農

在人工智慧領域,輝達作為行業領軍者,推出了兩種主要的GPU版本供AI伺服器選擇——NVLink版(實為SXM版)與PCIe版。這兩者有何本質區別?又該如何根據套用場景做出最佳選擇呢?讓我們深入探討一下。

關於CPU、伺服器和儲存詳細技術,請參考「 」,「 」、「 」、「 」、「 」、「 」、「 」、「 」等等。

NVLink 版的伺服器

SXM架構,全稱Socketed Multi-Chip Module,是輝達專為實作GPU間超高速互連而研發的一種高頻寬插座式解決方案。這一獨特的設計使得GPU能夠無縫對接於輝達自家的DGX和HGX系統。這些系統針對每一代輝達GPU(包括最新款的H800、H100、A800、A100以及之前的P100、V100等型號)配備了特定的SXM插座,確保GPU與系統之間實作最高效率的連線。舉例來說,一張展示8塊A100 SXM卡在浪潮NF5488A5 HGX系統上並列工作的圖片,直觀展示了這種強大的整合能力。

在HGX系統主機板上,8個GPU透過NVLink技術進行了緊密耦合,構建出前所未有的高頻寬互聯網路。具體來說,每一個H100 GPU會連線至4個NVLink交換芯片,從而實作GPU之間的驚人傳輸速度——高達900 GB/s的NVLink頻寬。此外,每個H100 SXM GPU還透過PCIe介面與CPU相連,確保任意GPU產生的數據都能快速傳送到CPU進行處理。

進一步強化這種高效能互聯的是NVSwitch芯片,它把DGX和HGX 系統板 上的所有SXM版GPU串聯在一起,形成了一個高效的GPU數據交換網路。未削減功能的A100 GPU可達到600GB/s的NVLink頻寬,而H100更是提升至900GB/s,即便是針對特定市場最佳化過的A800、H800也能保持400GB/s的高速互連效能。

談及DGX和HGX的不同之處,NVIDIA DGX可視為出廠預裝且高度可延伸的完整伺服器解決方案,其在同等體積內的效能表現堪稱業界翹楚。多台NVIDIA DGX H800可透過NVSwitch系統輕松組合,形成包含32個乃至64個節點的超級集群SuperPod,足以應對超大規模模型訓練的嚴苛需求。而HGX則屬於原始裝置制造商(OEM)客製整機方案。

PCIe版的伺服器

相比於SXM版GPU的全域互聯,PCIe版GPU的互聯方式更為傳統和受限。在這種架構下,GPU僅僅透過NVLink Bridge與相鄰的GPU實作直接連線,如圖所示,GPU 1僅能直接連線至GPU 2,而非直接相連的GPU(如GPU 1與GPU 8)間的通訊則必須透過較慢的PCIe通道來實作,這過程中還需要借助CPU的協助。目前最先進的PCIe標準提供的最大頻寬僅為128GB/s,遠不及NVLink的超高頻寬。

然而,盡管在GPU間互聯頻寬上PCIe版稍遜一籌,但單就GPU卡本身的計算效能而言,PCIe版與SXM版並無顯著差異。對於那些並不極端依賴於GPU間高速互連的套用場景,如中小型模型訓練、推理套用部署等,GPU間互聯頻寬的高低並不會顯著影響整體效能。

對比A100 PCIe與A100 SXM各項參數的圖表顯示兩者的計算核心效能並無太大差別。

該如何選擇?

PCIe版GPU的優勢主要體現在其出色的靈活性和適應力。對於工作負載較小、追求GPU數量配置靈活性的使用者,PCIe版GPU無疑是個絕佳選擇。例如,某些GPU伺服器僅需配備4張或者更少的GPU卡,此時采用PCIe版即可方便地實作伺服器的小型化,可輕松嵌入1U或2U伺服器機箱,同時降低了對數據中心機架空間的要求。

此外,在推理套用部署環境中,我們經常透過虛擬化技術將資源拆分和細粒度分配,實作CPU與GPU的一對一匹配。在這個場景下,PCIe版GPU因其較低的能耗(約300W/GPU)和普遍相容性而受到青睞。而相比之下,SXM版GPU在HGX架構中的功率消耗可能達到500W/GPU,雖然犧牲了一些能效比,卻換取了頂級的互聯效能優勢。

綜上所述,NVLink版(SXM版)GPU與PCIe版GPU各自服務於不同的市場需求。對於對GPU間互連頻寬有著極高需求的大規模AI模型訓練任務,SXM版GPU憑借其無可匹敵的NVLink頻寬和極致效能,成為了理想的計算平台。而對於那些重視靈活性、節約成本、註重適度效能和廣泛相容性的使用者,則可以選擇PCIe版GPU,它尤其適合輕量級工作負載、有限GPU資源分配以及各類推理套用部署場景。

企業在選購輝達AI伺服器時,務必充分考慮當前業務需求、未來發展規劃以及成本效益,合理評估兩種GPU 伺服器版本的優劣,以便找到最適合自身需求的解決方案。最終的目標是在保證計算效能的同時,最大化投資報酬率,並為未來的拓展留足空間。

來源: 牛逼的IT

下載連結:

轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

溫馨提示:

掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情