在人工智慧領域,輝達作為行業領軍者,推出了兩種主要的GPU版本供AI伺服器選擇——NVLink版(實為SXM版)與PCIe版。這兩者有何本質區別?又該如何根據套用場景做出最佳選擇呢?讓我們深入探討一下。
關於CPU、伺服器和儲存詳細技術,請參考「 」,「 」、「 」、「 」、「 」、「 」、「 」、「 」等等。
NVLink 版的伺服器
SXM架構,全稱Socketed Multi-Chip Module,是輝達專為實作GPU間超高速互連而研發的一種高頻寬插座式解決方案。這一獨特的設計使得GPU能夠無縫對接於輝達自家的DGX和HGX系統。這些系統針對每一代輝達GPU(包括最新款的H800、H100、A800、A100以及之前的P100、V100等型號)配備了特定的SXM插座,確保GPU與系統之間實作最高效率的連線。舉例來說,一張展示8塊A100 SXM卡在浪潮NF5488A5 HGX系統上並列工作的圖片,直觀展示了這種強大的整合能力。
在HGX系統主機板上,8個GPU透過NVLink技術進行了緊密耦合,構建出前所未有的高頻寬互聯網路。具體來說,每一個H100 GPU會連線至4個NVLink交換芯片,從而實作GPU之間的驚人傳輸速度——高達900 GB/s的NVLink頻寬。此外,每個H100 SXM GPU還透過PCIe介面與CPU相連,確保任意GPU產生的數據都能快速傳送到CPU進行處理。
進一步強化這種高效能互聯的是NVSwitch芯片,它把DGX和HGX 系統板 上的所有SXM版GPU串聯在一起,形成了一個高效的GPU數據交換網路。未削減功能的A100 GPU可達到600GB/s的NVLink頻寬,而H100更是提升至900GB/s,即便是針對特定市場最佳化過的A800、H800也能保持400GB/s的高速互連效能。
談及DGX和HGX的不同之處,NVIDIA DGX可視為出廠預裝且高度可延伸的完整伺服器解決方案,其在同等體積內的效能表現堪稱業界翹楚。多台NVIDIA DGX H800可透過NVSwitch系統輕松組合,形成包含32個乃至64個節點的超級集群SuperPod,足以應對超大規模模型訓練的嚴苛需求。而HGX則屬於原始裝置制造商(OEM)客製整機方案。
PCIe版的伺服器
相比於SXM版GPU的全域互聯,PCIe版GPU的互聯方式更為傳統和受限。在這種架構下,GPU僅僅透過NVLink Bridge與相鄰的GPU實作直接連線,如圖所示,GPU 1僅能直接連線至GPU 2,而非直接相連的GPU(如GPU 1與GPU 8)間的通訊則必須透過較慢的PCIe通道來實作,這過程中還需要借助CPU的協助。目前最先進的PCIe標準提供的最大頻寬僅為128GB/s,遠不及NVLink的超高頻寬。
然而,盡管在GPU間互聯頻寬上PCIe版稍遜一籌,但單就GPU卡本身的計算效能而言,PCIe版與SXM版並無顯著差異。對於那些並不極端依賴於GPU間高速互連的套用場景,如中小型模型訓練、推理套用部署等,GPU間互聯頻寬的高低並不會顯著影響整體效能。
對比A100 PCIe與A100 SXM各項參數的圖表顯示兩者的計算核心效能並無太大差別。
該如何選擇?
PCIe版GPU的優勢主要體現在其出色的靈活性和適應力。對於工作負載較小、追求GPU數量配置靈活性的使用者,PCIe版GPU無疑是個絕佳選擇。例如,某些GPU伺服器僅需配備4張或者更少的GPU卡,此時采用PCIe版即可方便地實作伺服器的小型化,可輕松嵌入1U或2U伺服器機箱,同時降低了對數據中心機架空間的要求。
此外,在推理套用部署環境中,我們經常透過虛擬化技術將資源拆分和細粒度分配,實作CPU與GPU的一對一匹配。在這個場景下,PCIe版GPU因其較低的能耗(約300W/GPU)和普遍相容性而受到青睞。而相比之下,SXM版GPU在HGX架構中的功率消耗可能達到500W/GPU,雖然犧牲了一些能效比,卻換取了頂級的互聯效能優勢。
綜上所述,NVLink版(SXM版)GPU與PCIe版GPU各自服務於不同的市場需求。對於對GPU間互連頻寬有著極高需求的大規模AI模型訓練任務,SXM版GPU憑借其無可匹敵的NVLink頻寬和極致效能,成為了理想的計算平台。而對於那些重視靈活性、節約成本、註重適度效能和廣泛相容性的使用者,則可以選擇PCIe版GPU,它尤其適合輕量級工作負載、有限GPU資源分配以及各類推理套用部署場景。
企業在選購輝達AI伺服器時,務必充分考慮當前業務需求、未來發展規劃以及成本效益,合理評估兩種GPU 伺服器版本的優劣,以便找到最適合自身需求的解決方案。最終的目標是在保證計算效能的同時,最大化投資報酬率,並為未來的拓展留足空間。
原文連結:
https://mp.weixin.qq.com/s/gEhjqMWHVfiMCDBt-VD0JA
下載連結:
走進芯時代(76):HBM叠代,3D混合鍵合成裝置材料發力點
走進芯時代(75):「半導核心材料」:萬丈高樓材料起,夯實中國「芯」地基」
走進芯時代(74):以芯助先進演算法,以算驅萬物智慧
走進芯時代(60):AI算力GPU,AI產業化再加速,智慧大時代已開啟
走進芯時代(58):高效能模擬替代漸入深水區,工業汽車重點突破
走進芯時代(57):算力大時代,處理器SOC廠商綜合對比
走進芯時代(49):「AI芯片」,AI領強算力時代,GPU啟新場景落地
走進芯時代(46):「新能源芯」,乘碳中和之風,基礎元件騰飛
走進芯時代(43):顯示驅動芯—面板國產化最後一公裏
走進芯時代(40):半導體裝置,再迎黃金時代
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。