前期分享參看「 」、「 」。
互聯技術在很大程度上決定了芯片和系統的物理架構。Nvidia利用NVLink-C2C這種低時延、高密度、低成本的互聯技術來構建SuperChip超級芯片,旨在兼顧效能和成本打造差異化競爭力。與傳統的SerDes互聯相比,NVLink C2C采用了高密度單端架構和NRZ調變,使其在實作相同互聯頻寬時能夠在時延、功耗、面積等方面達到最佳平衡點;而與Chiplet Die-to-Die互聯相比,NVLink C2C具備更強的驅動能力,並支持獨立封裝芯片間的互聯,因此可以使用標準封裝,滿足某些芯片的低成本需求。
為了確保CPU和GPU之間的記憶體一致性操作 (Cache-Coherency),對於NVLink C2C介面有極低時延的要求。 H100 GPU的左側需要同時支持NVLink C2C和PCIE介面,前者H100 GPU的左側需要同時支持NVLink C2C和PCIE介面,前者用於實作與Nvidia自研Grace CPU組成Grace-Hopper SuperChip,後者用於實作與PCIE交換芯片、第三方CPU、DPU、SmartNIC對接。NVLink C2C的互聯頻寬為900GB/s,PCIE互聯頻寬為128GB/s。
而當Hopper GPU與Grace CPU組成SuperChip時,需要支持封裝級的互聯。值得註意的是,Grace CPU之間也可以透過NVLink C2C互聯組成Grace CPU SuperChip。考慮到成本因素,Nvidia沒有選擇采用雙Die合封的方式組成Grace CPU,而是透過封裝間的C2C互聯組成SuperChip超級芯片。
從時延角度來看,NVLink C2C采用40Gbps NRZ調變,可以實作無誤碼執行 (BER<1e-12),免除FEC,介面時延可以做到小於5ns。相比之下,112G DSP架構的SerDes本身時延可以高達20ns,因為采用了PAM4調變,因此還需要引入FEC,這會額外增加百納秒量級的時延。此外,NVLink C2C采用了獨立的時鐘線來傳遞時鐘訊號,因此數據線上的訊號不需要維持通訊訊號直流均衡的編碼或擾碼,可以進一步將時延降低到極致。因此, 引入NVLink C2C的主要動機是滿足芯片間低時延互聯需求。
從互聯密度來看,當前112G SerDes的邊密度可以達到12.8Tbps每邊長,遠遠大於當前H100的(900+128)GB/s * 8/2 = 4.112Tbps的邊密度需求。NVLink C2C的面密度是SerDes的3到4倍,(169Gbps/mm 2 vs. 552Gbps/mm 2 )。而當前NVLink C2C的邊密度還略低於SerDes (281Gbps/mm vs. 304Gbps/mm)。更高的邊密度顯然不是NVLink C2C需要解決的主要矛盾。
從驅動能力來看,112G SerDes的驅動能力遠大於NVLink C2C。這在一定程度上會制約NVLink C2C的套用範圍,未來類似於NVLink C2C的單端傳輸線技術有可能進一步演進,拓展傳輸距離,尤其是在224G 及以上SerDes時代,芯片間互聯更加依賴於電纜解決方案,這對與計算系統是不友好的,會帶來諸如芯片布局、散熱困難等一系列工程挑戰,同時也需要解決電纜方案成本過高的問題。
從功耗來看,112G SerDes的功耗效率為5.5pJ/bit,而NVLink C2C的功耗效率為1.3pJ/bit。在3.6Tbps互聯頻寬下,SerDes和NVLink C2C的功耗分別為19.8W和4.68W。雖然單獨考慮芯片間互聯時,功耗降低很多,但是H100 GPU芯片整體功耗大約為700W,因此互聯功耗在整個芯片功耗中所占比例較小。
從成本角度來看,NVLink C2C的面積和功耗優於SerDes互聯。因此,在提供相同互聯頻寬的情況下,它可以節省更多的芯片面積用於計算和緩存。然而,考慮到計算芯片並不是IO密集型芯片,因此這種成本節約的比例並不顯著。但是,如果將雙Chiplet芯粒拼裝成更大規模的芯片時,NVLink C2C可以在某些場景下可以避免先進封裝的使用,這對降低芯片成本有明顯的幫助,例如Grace CPU SuperChip超級芯片選擇標準封裝加上NVLink C2C互聯的方式進行擴充套件可以降低成本。在當前工藝水平下,先進封裝的成本遠高於邏輯Die本身。
C2C互聯技術的另一個潛在的套用場景是大容量交換芯片,當其容量突破200T時,傳統架構的SerDes面積和功耗占比過高,給芯片的設計和制造帶來困難。在這種情況下,可以利用出封裝的C2C互聯技術來實作IO的扇出,同時盡量避免使用先進的封裝技術,以降低成本。然而,目前的NVLink C2C技術並不適合這一套用場景,因為它無法與標準SerDes實作位元透明的轉換。因此,需要引入背靠背的協定轉換,這會增延長延和面積功耗。
Grace CPU 具有上下翻轉對稱性,因此單個芯片設計可以支持同構 Die 組成 SuperChip 超級芯片。Hopper GPU 不具備上下和左右翻轉對稱性,未來雙 Die B100 GPU 芯片可能由兩顆異構 Die 組成。
NVLink 和 NVLink C2C 技術提供了更靈活設計,實作了 CPU 和 GPU 靈活配置,可以構建滿足不同套用需求的系統架構。NVLink C2C 可以提供靈活的CPU、GPU算力配比,可組成 1/0,0.5/1,0.5/2,1/4,1/8 等多種組合的硬體系統。 NVLink C2C支持Grace CPU和Hopper GPU芯片間記憶體一致性操作 (Cache-Coherency),讓 Grace CPU 成為 Hopper GPU 的記憶體控制器和 IO 擴充套件器,實作了 4倍 IO 頻寬和5倍記憶體容量的擴充套件。 這種架構打破了HBM的瓶頸,實作了記憶體超發。對訓練影響是可以緩存更大模型,利用ZeRO等技術外存緩存模型,頻寬提升能減少Fetch Weight的IO開銷。對推理影響是可以緩存更大模型,按需載入模型切片推理,有可能在單CPU-GPU超級芯片內完成大模型推理 [23]。
有媒體測算Nvidia的H100利潤率達到90%。同時也給出了估算的H100的成本構成,Nvidia向台積電下訂單,用 N4工藝制造 GPU 芯片,平均每顆成本 155 美元。Nvidia從 SK 海麗仕(未來可能有三星、美光)采購六顆 HBM3芯片,成本大概 2000 美元。台積電生產出來的 GPU 和Nvidia采購的 HBM3 芯片,一起送到台積電 CoWoS 封裝產線,以效能折損最小的方式加工成 H100,成本大約 723 美元 [24]。
先進封裝成本高,是邏輯芯片裸Die成本的3 到4倍以上, GPU記憶體的成本占比超過 60%。按照DDR: 5美金/GB,HBM: 15美金/GB以及參考文獻 [25][26] 中給出的GPU計算Die和先進封裝的成本測算,H100 GPU HBM成本占比為62.5%;GH200中HBM和LPDDR的成本占比為78.2%。
雖然不同來源的資訊對各個部件的絕對成本估算略有不同,但可以得出明確的結論: 記憶體在AI計算系統中的成本占比可高達60%到70%以上;先進封裝的成本是計算Die成本的3到4倍以上。在接近Reticle面積極限的大芯片良率達到80%的情況下,先進封裝無法有效地降低成本。因此,應該遵循非必要不使用的原則。
Nvidia與AMD和Intel GPU 架構對比
AMD的GPU相對於Nvidia更加依賴先進封裝技術。MI250系列GPU采用了基於EFB矽橋的晶圓級封裝技術,而MI300系列GPU則套用了AID晶圓級有源封裝基板技術。相比之下,Nvidia並沒有用盡先進封裝的能力,一方面在當前代際的GPU中保持了相對較低的成本,另一方面也為下一代GPU保留了一部份工程工藝的價值發揮空間。
Intel Ponte Vecchio GPU將Chiplet和先進封裝技術推向了極致,它涉及5個工藝節點(包括TSMC和Intel兩家廠商的不同工藝),47個有源的Tile,並同時采用了EMIB 2.5D和Foveros 3D封裝技術。可以說,它更像是一個先進封裝技術的試驗場。Intel 的主力AI芯片是Gaudi系列AI加速芯片 [27][28][29]。值得註意的是Gaudi系列AI芯片是由TSMC代工的Gaudi 2采用的是TSMC 7nm工藝,Gaudi 3采用的是TSMC 5nm工藝。
未完待續…
作者: 陸玉春
來源:
https://www.chaspark.com/#/hotspots/950120945305616384
更多GPU技術細節,請參考文章「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」等等。
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。