學過微處理器的同學可能還記得,最初的8086/8088處理器沒有浮點單元。主機板通常有一個額外的插槽,用於可選的8087 數學協處理器。數學協處理器進入了 CPU 本身,如今,CPU 沒有可選的數學協處理器。
然而, SIMD 處理器(例如GPU)有多種選擇。眾所周知,GPU 可以比 CPU 主機更快地加速數學處理(例如矩陣運算)。
隨著Nvidia GH-200 處理器 和AMD MI300A APU的推出,市場正在見證「8087 時刻」——即 CPU 吸收外部效能硬體。Nvidia 和 AMD 都已將 GPU 納入處理器中,其結果是 HPC 效能大幅躍升,並預示著未來的發展。
本文來自「 」。
更多GPU技術細節,請參考文章「
」,「
」,「
」,「
」,「
」,「
」,「
」,「
」,「
」,「
」,「
」等等。
再見 PCI
AMD 和 Nvidia 的 GPU 都依賴 PCI 匯流排與 CPU 進行通訊。CPU 和 GPU 有兩個不同的記憶體域,數據必須透過 PCI 介面從 CPU 域移動到 GPU 域(並返回)。
使用第 5 代 PCIe 匯流排中全部 16 個通道的 GPU 的最大頻寬約為 63GB/s。此瓶頸將限制 CPU 和 GPU 之間的記憶體移動。
Nvidia GH200 透過 900 GB/s 雙向 NVLink-C2C 連線 Grace CPU 和 Hooper GPU。結果大約快了 14 倍。此外,GH200 還帶來了單一共享 CPU-GPU 記憶體域的優勢。無需透過 PCI 匯流排在 CPU 和 GPU 之間行動資料。如圖 1 所示,CPU 和 GPU 對所有記憶體具有一致的檢視。CPU記憶體高達480GB LPDDR5X(帶ECC),GPU具有96GB HBM3或144GB HBM3e。總的相幹(單域)記憶體在 576GB 到 624GB 之間。
當前的 AMD Instinct MI300A APU 中采用單一記憶體域,具有 128 GB HBM3 記憶體,使用 Infinity Fabric 在 CPU 和 GPU 之間一致共享,封裝峰值吞吐量為 5.3 TB/s 。 雖然 MI300A 目前不支持像 GH200 那樣額外的 DDR 記憶體擴充套件,但 CXL 是一個值得將來記住的詞。
對於 GH200 和 MI300A,關鍵的突出短語是「呈現單個儲存域」。在傳統的CPU-PCIe-GPU組合中,GPU記憶體量通常小於CPU記憶體,數據必須透過PCIe介面進行混洗。這兩個新設計消除了這個瓶頸。單個大記憶體域一直對 HPC 有吸重力,而 GenAI 的增長加速了這種需求(即,能夠在記憶體中載入大型模型並使用 GPU 執行它們)。對於傳統 GPU,GPU 記憶體量限制了模型大小,需要采用分布式 GPU 方法。(註:GH200 可以透過外部 NVLink 連線,建立海量統一記憶體;例如,Nvidia-AWS NLV32可以提供高達 20 TB 的統一記憶體。)
離你的桌面並不遠
技術領域明顯的趨勢之一是從昂貴的新技術市場轉向低成本的大宗商品市場。高效能計算也不例外。隨著市場需求,從多核到高級記憶體的一切都已從高端轉移到「手機」。遷移到單個記憶體域就是這些變化之一。
最近,在 Linux 基準測試網站Phoronix上,傑出的測試員Michael Larabel在 GH200 工作站上執行了 HPC 基準測試。該系統由德國的GPTshop.ai提供。
據了解,系統 塔式機箱 配備 GH200 Grace Hopper Superchip,配備 576G 記憶體、雙 2000+ W 電源、QCT 主機板以及多種配置選項,包括 SSD 和 NVIDIA Bluefield/Connect-X 介面卡。一項有趣且有用的功能是 TDP 可以從 450W 編程到 1000W(CPU + GPU + 記憶體),這在非數據中心環境中應該很有用。另外,預設風冷噪音據稱為25分貝。液體冷卻也是一種選擇。
然而,桌面超級工作站並不便宜。目前可用的型號 GH200 576GB起價為 47,500 歐元(根據 Phoronix 的說法,由於在歐盟以外地區運輸時無需繳納 19% 的增值稅,因此該價格相當於 41,000 美元)
這個價格可能看起來很高,但考慮到具有 80 GB HBM2e 記憶體的 Nvidia H100 PCIe GPU 目前的市場價格在 3 萬美元到 3.5 萬美元之間。這不包括為 GPU 供電和執行的主機系統。此外,使用者還受到 80GB GPU 記憶體的限制,該記憶體透過 PCIe 匯流排與主記憶體域分開。
GPTshop工作站提供576GB的單域記憶體。HPC 和 GenAI 使用者會發現這半 TB 的 CPU-GPU 記憶體很有吸重力。
初步基準
借助 GPTshop,Phoronix 能夠遠端執行多個基準測試。基準應被視為初步的,而不是最終的績效衡量標準。特別是,基準測試僅針對 CPU,沒有使用 Hopper A100 GPU。因此,基準圖是不完整的。Phoronix 計劃在未來測試基於 GPU 的應用程式。
據 Phoronix 稱,Ubuntu 23.10 與 Linux 6.5 一起使用 GCC-13 作為標準編譯器。使用類似的環境來測試可比較的處理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max 處理器。完整的列表可以在Phoronix 網站上找到。
此外,沒有可用於基準測試執行的功耗數據。據 Phoronix 稱,NVIDIA GH200 目前似乎沒有在 Linux 下公開任何 RAPL/PowerCap/HWMON 介面,僅用於讀取 GH200 的功率/能源使用情況。系統上的BMC確實透過Web界面暴露了整個系統的功耗,並且功率數據沒有透過IPMI暴露。
盡管存在這些限制,一些重要的基準測試還是首次在 Nvidia 之外的 GH200 上執行。
好奧萊 HPCG
Phoronix 報告的第一個測試是標準HPCG記憶體頻寬基準測試,如圖 2 所示。
可以看出,GH200 Arm 的效能達到了可觀的 42 GFLOPS,略高於 Xeon Platinum 8380 2P(40 GFLOPS),略低於 EPYC 9654 Genoa 2P(44 GFLOPS)。另外值得註意的是 72 核 Arm Grace CPU,其效能幾乎是 Ampere Altra Max 128 核 Arm 處理器的兩倍。
GH200 在其他基準測試中表現良好。最令人印象深刻的結果如圖 3 所示。使用 72 核 Arm GH200 的 NWChem (C240-Bucky Ball) 執行時間為 1404 秒,僅落後於領先者 128 核 Epyc 9554 (2p),成績為 1323 秒。
即將發生的事情
Nvidia GH200 和 AMD MI300A 引入了新的處理器架構。與吸收 8087 數學協處理器類似,高端 CPU 也開始吸收 GPU(或 SIMD 處理單元)。然而,這個想法並不是全新的。自 2011 年以來,AMD 已將中等 GPU 整合到其桌上型電腦/膝上型電腦APU 處理器中。雖然這些高端處理器可能被認為是「專用」的,因此價格昂貴,但隨著時間的推移,對 GenAI 的巨大興趣可能會將這些設計推向商品價格點。隨著更多基準的出現,這個故事將繼續發展。
此外,引入具有足夠記憶體的個人高效能工作站,可以在您的辦公桌旁執行一些最大的法學碩士,這是一個重要的裏程碑。更不用說執行許多大記憶體 GPU 最佳化的 HPC 應用程式的能力了。數據中心和雲仍將是當今的主力,但必須要說的是「擁有重設按鈕」。
來源:半導體行業觀察
原文連結:
https://www.hpcwire.com/2024/02/22/a-big-memory-nvidia-gh200-next-to-your-desk-closer-than-you-think/
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。