當前位置: 妍妍網 > 碼農

Nvidia AI芯片架構分析

2024-03-19碼農

前期分享參看「 」、「 」。

互聯技術在很大程度上決定了芯片和系統的物理架構。Nvidia利用NVLink-C2C這種低時延、高密度、低成本的互聯技術來構建SuperChip超級芯片,旨在兼顧效能和成本打造差異化競爭力。與傳統的SerDes互聯相比,NVLink C2C采用了高密度單端架構和NRZ調變,使其在實作相同互聯頻寬時能夠在時延、功耗、面積等方面達到最佳平衡點;而與Chiplet Die-to-Die互聯相比,NVLink C2C具備更強的驅動能力,並支持獨立封裝芯片間的互聯,因此可以使用標準封裝,滿足某些芯片的低成本需求。

為了確保CPU和GPU之間的記憶體一致性操作 (Cache-Coherency),對於NVLink C2C介面有極低時延的要求。 H100 GPU的左側需要同時支持NVLink C2C和PCIE介面,前者H100 GPU的左側需要同時支持NVLink C2C和PCIE介面,前者用於實作與Nvidia自研Grace CPU組成Grace-Hopper SuperChip,後者用於實作與PCIE交換芯片、第三方CPU、DPU、SmartNIC對接。NVLink C2C的互聯頻寬為900GB/s,PCIE互聯頻寬為128GB/s。

而當Hopper GPU與Grace CPU組成SuperChip時,需要支持封裝級的互聯。值得註意的是,Grace CPU之間也可以透過NVLink C2C互聯組成Grace CPU SuperChip。考慮到成本因素,Nvidia沒有選擇采用雙Die合封的方式組成Grace CPU,而是透過封裝間的C2C互聯組成SuperChip超級芯片。

從時延角度來看,NVLink C2C采用40Gbps NRZ調變,可以實作無誤碼執行 (BER<1e-12),免除FEC,介面時延可以做到小於5ns。相比之下,112G DSP架構的SerDes本身時延可以高達20ns,因為采用了PAM4調變,因此還需要引入FEC,這會額外增加百納秒量級的時延。此外,NVLink C2C采用了獨立的時鐘線來傳遞時鐘訊號,因此數據線上的訊號不需要維持通訊訊號直流均衡的編碼或擾碼,可以進一步將時延降低到極致。因此, 引入NVLink C2C的主要動機是滿足芯片間低時延互聯需求。

從互聯密度來看,當前112G SerDes的邊密度可以達到12.8Tbps每邊長,遠遠大於當前H100的(900+128)GB/s * 8/2 = 4.112Tbps的邊密度需求。NVLink C2C的面密度是SerDes的3到4倍,(169Gbps/mm 2 vs. 552Gbps/mm 2 )。而當前NVLink C2C的邊密度還略低於SerDes (281Gbps/mm vs. 304Gbps/mm)。更高的邊密度顯然不是NVLink C2C需要解決的主要矛盾。

從驅動能力來看,112G SerDes的驅動能力遠大於NVLink C2C。這在一定程度上會制約NVLink C2C的套用範圍,未來類似於NVLink C2C的單端傳輸線技術有可能進一步演進,拓展傳輸距離,尤其是在224G 及以上SerDes時代,芯片間互聯更加依賴於電纜解決方案,這對與計算系統是不友好的,會帶來諸如芯片布局、散熱困難等一系列工程挑戰,同時也需要解決電纜方案成本過高的問題。

從功耗來看,112G SerDes的功耗效率為5.5pJ/bit,而NVLink C2C的功耗效率為1.3pJ/bit。在3.6Tbps互聯頻寬下,SerDes和NVLink C2C的功耗分別為19.8W和4.68W。雖然單獨考慮芯片間互聯時,功耗降低很多,但是H100 GPU芯片整體功耗大約為700W,因此互聯功耗在整個芯片功耗中所占比例較小。

從成本角度來看,NVLink C2C的面積和功耗優於SerDes互聯。因此,在提供相同互聯頻寬的情況下,它可以節省更多的芯片面積用於計算和緩存。然而,考慮到計算芯片並不是IO密集型芯片,因此這種成本節約的比例並不顯著。但是,如果將雙Chiplet芯粒拼裝成更大規模的芯片時,NVLink C2C可以在某些場景下可以避免先進封裝的使用,這對降低芯片成本有明顯的幫助,例如Grace CPU SuperChip超級芯片選擇標準封裝加上NVLink C2C互聯的方式進行擴充套件可以降低成本。在當前工藝水平下,先進封裝的成本遠高於邏輯Die本身。

C2C互聯技術的另一個潛在的套用場景是大容量交換芯片,當其容量突破200T時,傳統架構的SerDes面積和功耗占比過高,給芯片的設計和制造帶來困難。在這種情況下,可以利用出封裝的C2C互聯技術來實作IO的扇出,同時盡量避免使用先進的封裝技術,以降低成本。然而,目前的NVLink C2C技術並不適合這一套用場景,因為它無法與標準SerDes實作位元透明的轉換。因此,需要引入背靠背的協定轉換,這會增延長延和面積功耗。

Grace CPU 具有上下翻轉對稱性,因此單個芯片設計可以支持同構 Die 組成 SuperChip 超級芯片。Hopper GPU 不具備上下和左右翻轉對稱性,未來雙 Die B100 GPU 芯片可能由兩顆異構 Die 組成。

NVLink 和 NVLink C2C 技術提供了更靈活設計,實作了 CPU 和 GPU 靈活配置,可以構建滿足不同套用需求的系統架構。NVLink C2C 可以提供靈活的CPU、GPU算力配比,可組成 1/0,0.5/1,0.5/2,1/4,1/8 等多種組合的硬體系統。 NVLink C2C支持Grace CPU和Hopper GPU芯片間記憶體一致性操作 (Cache-Coherency),讓 Grace CPU 成為 Hopper GPU 的記憶體控制器和 IO 擴充套件器,實作了 4倍 IO 頻寬和5倍記憶體容量的擴充套件。 這種架構打破了HBM的瓶頸,實作了記憶體超發。對訓練影響是可以緩存更大模型,利用ZeRO等技術外存緩存模型,頻寬提升能減少Fetch Weight的IO開銷。對推理影響是可以緩存更大模型,按需載入模型切片推理,有可能在單CPU-GPU超級芯片內完成大模型推理 [23]。

有媒體測算Nvidia的H100利潤率達到90%。同時也給出了估算的H100的成本構成,Nvidia向台積電下訂單,用 N4工藝制造 GPU 芯片,平均每顆成本 155 美元。Nvidia從 SK 海麗仕(未來可能有三星、美光)采購六顆 HBM3芯片,成本大概 2000 美元。台積電生產出來的 GPU 和Nvidia采購的 HBM3 芯片,一起送到台積電 CoWoS 封裝產線,以效能折損最小的方式加工成 H100,成本大約 723 美元 [24]。

先進封裝成本高,是邏輯芯片裸Die成本的3 到4倍以上, GPU記憶體的成本占比超過 60%。按照DDR: 5美金/GB,HBM: 15美金/GB以及參考文獻 [25][26] 中給出的GPU計算Die和先進封裝的成本測算,H100 GPU HBM成本占比為62.5%;GH200中HBM和LPDDR的成本占比為78.2%。

雖然不同來源的資訊對各個部件的絕對成本估算略有不同,但可以得出明確的結論: 記憶體在AI計算系統中的成本占比可高達60%到70%以上;先進封裝的成本是計算Die成本的3到4倍以上。在接近Reticle面積極限的大芯片良率達到80%的情況下,先進封裝無法有效地降低成本。因此,應該遵循非必要不使用的原則。

Nvidia與AMD和Intel GPU 架構對比

AMD的GPU相對於Nvidia更加依賴先進封裝技術。MI250系列GPU采用了基於EFB矽橋的晶圓級封裝技術,而MI300系列GPU則套用了AID晶圓級有源封裝基板技術。相比之下,Nvidia並沒有用盡先進封裝的能力,一方面在當前代際的GPU中保持了相對較低的成本,另一方面也為下一代GPU保留了一部份工程工藝的價值發揮空間。

Intel Ponte Vecchio GPU將Chiplet和先進封裝技術推向了極致,它涉及5個工藝節點(包括TSMC和Intel兩家廠商的不同工藝),47個有源的Tile,並同時采用了EMIB 2.5D和Foveros 3D封裝技術。可以說,它更像是一個先進封裝技術的試驗場。Intel 的主力AI芯片是Gaudi系列AI加速芯片 [27][28][29]。值得註意的是Gaudi系列AI芯片是由TSMC代工的Gaudi 2采用的是TSMC 7nm工藝,Gaudi 3采用的是TSMC 5nm工藝。

未完待續…

作者: 陸玉春

來源:

https://www.chaspark.com/#/hotspots/950120945305616384

更多GPU技術細節,請參考文章「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」等等。

相關閱讀:

轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

溫馨提示:

掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情