前篇內容請參看文章: 、 、 。
基於以下兩個前提:每一代AI芯片的儲存、計算和互聯比例保持大致一致,且比上一代提升1.5到2倍以上;工程工藝演進是漸進且可預測的,不存在跳變,至少在2025年之前不會發生跳變。因此,可以對2023年的H100、2024年的B100和2025年的X100的架構進行推演總結。
對於工程工藝的基本假設如下:到2025年,工藝將保持在3nm水平,但工藝演進給邏輯裝置帶來的收益預計不會超過50%。同時,先進封裝技術預計將在2025年達到6倍 Reticle面積的水平。此外,HBM記憶體容量也將繼續增長,預計在2024年將達到24GB,而在2025年將達到36GB。
在上述前提假設條件下,針對 H100/H200, B100, X100 GPU可以 得到如下推演結論:
1. H200是基於H100的基礎上從HBM3升級到HBM3e,提升了記憶體的容量和頻寬。
2. B100將采用雙Die架構。如果采用異構Die合封方式,封裝基板面積將小於當前先進封裝4倍Reticle面積的約束。而如果采用計算Die和IO Die分離,同構計算Die和IO Die合封的方式,封裝基板面積將超出當前先進封裝4倍Reticle面積的約束。如果采用計算Die和IO Die分離,同構計算Die和IO Die分開封裝的方式,則可以滿足當前的工程工藝約束。考慮到B100 2024年推出的節奏,以及計算Die在整個GPU芯片中的成本占比並不高,因此用異構Die合封方式的可能性較大。
3. 如果X100采用單Socket封裝,四個異構Die合封裝的方式,需要在計算Die上堆疊HBM,同時需要先進封裝的基板達到6倍Reticle面積。但是,如果采用SuperChip超級芯片的方式組成雙Socket封裝模組,可以避免計算Die上堆疊HBM,並放松對先進封裝基板面積的要求,此時需要對NVLink C2C的驅動能力做增強。
基於B100雙Die架構,采用雙Socket板級3D擴充套件可以實作與X100同等的算力。類似的方法也可以套用到X100中進一步擴充套件算力。板級擴充套件可以降低對工程工藝的要求,以較低的成本實作算力擴充套件。雖然基於人們對於先進封裝的Chiplet芯粒架構充滿了期待,但是其演進速度顯然無法滿足AI計算系統「三年三個數量級」的增長需求 [33]。在AI計算領域基於先進封裝Die間互聯Chiplet芯粒架構,很可能因為無法滿足AI計算領域快速增長的需求而面臨「二世而亡」的窘境,業界需要重新尋找旨在提升AI算力的新技術路徑,比如SuperChip超級芯片和SuperPOD超節點。因此, 類似於NVLink C2C的低時延、高可靠、高密度的芯片間互聯技術在未來AI計算芯片的Scale Up算力擴充套件中將起到至關重要的作用;面向AI集群Scale Out算力擴充套件的互聯技術也同等重要。 這兩中互聯技術,前者是AI計算芯片算力擴充套件的基礎,而後者是AI計算集群算力擴充套件的基礎。
總結與思考
本文嘗試從第一性原理出發,對Nvidia的AI芯片發展路線進行了深入分析和解讀,並對未來的B100和X100芯片架構進行了推演預測。並且,希望透過這種推演提取出未來AI計算系統對互聯技術的新需求。
本文以互聯技術為主線展開推演分析,同時考慮了芯片代際演進的效能提升需求和工程工藝約束。最終得出的結論是: 在AI計算領域,基於先進封裝Die間互聯的Chiplet芯粒架構無法滿足AI計算領域快速增長的需求,可能面臨「二世而亡」的窘境。低時延、高可靠、高密度的芯片間互聯技術在未來AI計算芯片的Scale Up算力擴充套件中將起到至關重要的作用;雖然未展開討論,同樣的結論也適用於面向AI集群Scale Out算力擴充套件的互聯技術。224G及以上代際中,面向計算集群的互聯技術也存在非常大的挑戰。 需要明確指出的是,互聯技術並不是簡單地將芯片、盒子、機框連線起來的問題,它並不是一根連線而已,它需要在需求、技術、產業生態等各個方面進行綜合考慮,需要極具系統性的創新以及長時間的、堅持不懈的投入和努力。
除了互聯技術以外,透過對Nvidia相關技術布局的分析也引發了如下思考:
1.真正的差異化競爭力源於系統性地、全面地掌握整個價值鏈中主導無法快速復制的關鍵環節。Nvidia在系統和網路、硬體、軟體這三個方面占據了主導地位,而這三個方面恰恰是人工智慧價值鏈中許多大型參與者無法有效或快速復制的重要部份。然而,要在這三個方面中的任何一方面建立領導地位都離不開長時間堅持不懈的投入和努力帶來的技術沈澱和積累。指望在一個技術單點形成突破,期望形成技術壁壘或者技術護城河的可能性為零。「重要且無法快速復制」是核心特征,其中「重要」更容易被理解,而「無法快速復制」則意味著「長時間堅持不懈的投入和努力」帶來的沈澱和積累,這是人們往往忽視的因素。
2.開放的產業生態並不等同於技術先進性和競爭力。只有深入洞察特定領域的需求,進行技術深耕,做出差異化競爭力,才能給客戶帶來高價值,給自身帶來高利潤。Nvidia基於NVLink C2C的SuperChip超級芯片以及基於NVLink網路的SuperPOD超節點就是很好的例子。真正構築核心競爭力的技術是不會開放的,至少在有高溢價的早期不會開放,比如Nvidia的NVLink和NVLink C2C技術,比如Intel的QPI和UPI。開放生態只是後來者用來追趕強者的借口(比如UEC),同時也是強者用來鞏固自己地位的工具(比如PCIE)。然而,真正的強者並不會僅僅滿足於開放生態所帶來的優勢,而是會透過細分領域和構築特定領域的封閉生態,實作差異化競爭力來保持領先地位。
3.構築特定領域的差異化競爭力與復用開放的產業生態並不矛盾。其關鍵在於要在開放的產業生態中找到真正的結合點,並能夠果斷地做出取舍,勇敢地拋棄不必要的負擔,只選擇開放產業生態中的精華部份,構建全新的技術體系。為了構築特定領域的差異化競爭力,更應該積極擁抱開放的產業生態,主動引導其發展以實作這種差異化。比如,InfiniBand與Ethernet在低時延方面的差異化並不是天生的,而是人為構造出來的。兩者在基礎技術上是相同的。InfiniBand在25G NRZ代際以前抓住了低時延這一核心特征,摒棄跨速率代際相容的需求,卸掉了技術包袱,並且在HPC領域找到了合適的戰場,因此在低時延指標上一直碾壓Ethernet,成功實作了高品牌溢價。而InfiniBand在56G PAM4這一代際承襲了Ethernet的互聯規範,因此這種低時延上的競爭力就逐漸喪失了。人為制造差異化競爭力的典型例子還有:同時相容支持InfiniBand和Ethernet的CX系列網卡和BlueField系列DPU;內建在NVSwitch和InfiniBand交換機中的SHARP在網計算協定和技術;Nvidia基於NVLink C2C構築SuperChip超級芯片以及基於NVLink網路構築SuperPOD超節點。
4.「天下沒有免費的午餐」,這是恒古不變的真理和底層的商業邏輯。商業模式中的「羊毛出在狗身上,由豬買單」其實就是變相的轉移支付,羊毛終將是出在羊身上,只是更加隱蔽罷了。這一規律同樣適用於對復雜系統中的技術價值的判斷上。自媒體分析H100的BOM物料成本除以售價得到90%的毛利率是片面的,因為高價值部份是H100背後的系統競爭力,而不僅僅是那顆眼鏡片大小的矽片。這裏包含了H100背後的海量的研發投入和技術積累。而隱藏在這背後的實際上是人才。如何對中長期賽道上耕耘的人提供既緊張又輕松的研究環境,使研究人員能安心與具有長期深遠影響的技術研究,是研究團隊面臨的挑戰和需要長期思考的課題。從公開發表的D2D和C2C相關文獻中可以看到,Nvidia在這一領域的研究投入超過十年,針對C2C互聯這一場景的研究工作也超過五年。在五到十年的維度上長期進行叠代研究,需要相當強的戰略定力,同時也需要非常寬松的研究環境和持續的研究投入。
5.在人工智慧時代,透過資訊不對稱來獲取差異化競爭力或獲得收益的可能性越來越低。這是因為制造資訊不對稱的難度和代價不斷飆升,而其所帶來的收益卻逐漸減少。在不久的未來,制造資訊不對稱的代價將會遠遠超過收益。妄圖透過壟斷資訊而達到差異化的競爭力,浪費的是時間,而失去的是機會。隨著大模型的進一步演進發展,普通人可以透過人工智慧技術輕松地獲取並加工海量的資訊且不會被淹沒。未來的核心競爭力是如何駕馭包括人工智慧在內的工具,對未來技術走向給出正確的判斷。
6.Nvidia並非不可戰勝,在激進的技術路標背後也隱藏著巨大的風險。如何向資本證明其在AI計算領域的能夠長期維持統治地位,保持長期的盈利能力,以維持其高股價、實作持續高速增長,極具挑戰性。一旦2025年釋出的X100及其配套關鍵技術不及預期,這將直接影響投資者的信心。這是Nvidia必須面臨的資本世界的考驗,在這一點上它並沒有制度優勢。在一些基礎技術層面,業界面臨的挑戰是一樣的。以互聯技術為例,用於AI計算芯片Scale Up算力擴充套件的C2C互聯技術,以及面向AI集群Scale Out算力擴充套件的光電互聯技術都存在非常大的挑戰。誰能在未來互聯技術演進的探索中,快速試錯,最快地找到最佳路徑,少犯錯誤,誰就抓住了先機。在未來的競爭中有可能實作超越。
作者: 陸玉春
來源:
https://www.chaspark.com/#/hotspots/950120945305616384
更多GPU技術細節,請參考文章「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」,「 」等等。
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。