本文參考自「 」,從GPT-1到GPT-5,GPT模型的智慧化程度不斷提升。 ChatGPT在擁有3000億單詞的語料基礎上預訓練出擁有1750億個參數的 模型(GPT-2僅有15億參數),預訓練數據量從5GB增加到45TB。
AI對雲廠商資本開支需求的拉動始於2023年四季度,據一季度各大雲廠商的資本開支及指引, 預計2024年北美雲商資本開支有望重回高速增 長態勢。
Transformer算力需求在2年內增長750倍,平均每年以接近10倍的速度增長;輝達平均每2年左右推出一代加速卡,從A系列到B系列的升級 節奏來看,每一代產品算力提升振幅在3倍左右,價格提升振幅比算力提升振幅略低。 綜合大模型的參數增長和算力的單位價格來看,過去5年 大模型訓練對資本開支的需求持續快速提升,未來大模型參數的持續提升仍將帶動算力需求激增。
在生成式AI場景下,模型訓練和推理所需的算力與參數大小成正相關。
1)訓練 所需的算力和模型參數以及訓練集大小(Token)數量成 正比;
2)推理 所需的算力和模型參數,回答大小,以及存取量成正比關系。
當前大模型參數仍以較快速度增長,後續將推出的GPT-5模型,參數有望達到十萬億量級,有望引起大模型以及雲廠商在算力領域的新一 輪競賽,拉動下遊算力需求。
AI大模型的算力需求在過去幾年呈現快速增長的態勢,Transformer算力需求在2年內增長750倍, 平均每年以接近10倍的速度增長。 以Open AI的GPT為例,GPT 1在2018年推出,參數量級為1億個,Open AI下一代推出的GPT 5參數量級預計達到10萬億。
算力是加速卡的核心效能指標。AI芯片算力根據精度有所差異,一般神經網路的標準訓練精度是32位元浮點數,但有時為了節省時間和資源,也 可以使用16位元浮點數進行訓練,推理時對算力精度的要求相對較低,而對功耗、推理成本、響應速度等要求較高,通常采用INT8算力。
輝達的加速卡在算力方面仍處於行業領先地位 ,最新一代Blackwell平台加速卡不僅在8~32位元推理算力中顯著超過競爭對手,還額外提供了 FP4算力用於低精度的推理場景。
其他廠商來看,AMD在算力方面與輝達最為接近, 並且在FP64算力上超越輝達最新一代的產品,更適合用於科學計算的場景。而目前其他 的互聯網公司自研加速卡與輝達仍有較大差距。
輝達的NV Link和NV Switch保持著2年一代的升級節奏,目前NV Link頻寬已達到1.8TB/s的雙向 互聯,在市面上處於領先地位。
競爭對手的情況來看,AMD和谷歌的片間互聯頻寬分別達到了896GB/s和600GB/s,與輝達的上一代H系列產品較為接近, 而其他雲廠商自 研加速卡大多采用PCIe通訊協定,在片間互聯能力方面與輝達仍有較大的差距。
據TechInsights,2023年輝達占全球數據中心GPU出貨量份額的98%,處於壟斷地位。
同時,AMD、谷歌、特斯拉等廠商相繼推出MI300系列、TPU V5以及Dojo D1等產品,挑戰輝達的壟斷地位,盡管2024年4月輝達推出的B系列 加速卡再一次在算力方面與競爭對手甩開差距,但當前全球加速卡市場競爭者不斷增加已成定局。
國內市場方面, 伴隨美國禁令趨嚴,2023年10月17日美國商務部公布算力芯片出口管制新規,A100、H100、A800、H800、L40、L40S等芯片進 入管制名單,同時國內昇騰、寒武紀等龍頭廠商產品能力不斷追趕海外龍頭, AI芯片國產化成為大趨勢。
輝達 自2020年以來,平均每2年推出一代產品,每一代產品在算力、互聯頻寬等指標方面的提升 振幅均在一倍左右。
訓練卡方面, 除了輝達常規的H100、B100等加速卡外,H系列以後,輝達還增加了H200、B200等產品,從而給客戶提供更多的產品 選擇和更好的價效比,例如H200加速卡在HBM容量方面相較於H100均有較大提升,但價格方面提升振幅相對較少。
推理卡方面,
2024年輝達的產品出貨以L40和L40S為主,並且推出了L20,L2,L4等產品供客戶選擇。
2023年12月,谷歌推出面向雲端的AI 加速卡TPU v5p,相較於TPU V4,TPU v5p提供了二倍的浮點運算能力和三倍記憶體頻寬提升,芯片間的互聯頻寬最高可以達到600GB/s。 其他雲廠商也紛紛推出自研加速卡計劃。
1)Meta: 2023年,Meta宣布自研MTIA v1芯片,2024年4月,Meta釋出最新版本MTIA v2加速卡;
2)微軟: 微軟Azure的企業數量已經達到25萬家,微軟的Maia 100在2023年推出,專為Azure雲服務設計;
3)亞馬遜: 2023年,亞 馬遜推出了用於訓練的Trainium2加速卡,以及用於推理的Graviton4加速卡,目前亞馬遜在訓練和推理卡均有布局。
以AMD的MI300X為例,這顆加速卡在Int8、FP16、FP32算力方面均為H100的1.3倍,互聯頻寬 方面達到了接近於NV Link4.0的896GB/s雙向互聯,FP64算力和HBM容量更是達到了H100的2倍以上,一系列的堆料和價格優勢使得下遊雲廠商考慮轉用一部份AMD的產品。
相較於H100,H200將此前的HBM3提升為HBM3E,同時將HBM容量從上一代的 80GB提升至141GB。在價格方面,H200相較於上一代產品體現出極強的價效比,該款加速卡發售後預計將受到下遊客戶的歡迎。 輝達的 下一代Blackwell GPU系列產品,在算力、記憶體和互聯頻寬的AI三要素領域與競爭對手的差距進一步拉開,鞏固了輝達的領先地位。
GB200 NVL72顯著拉開了輝達與其競爭對手的差距。 輝達透過架構的創新,解決了GPU之間互聯頻寬的問題,實作了最多576張卡 1.8TB/s的雙向互聯頻寬,顯著領先其他競爭對手,使得GB200 NVL72的推理效能達到H100的30倍。
1)從價效比來看: NVL 72的集群規模增大,一方面 節省了除算力芯片以外的系統成本,另一方透過提升產品效能,間接提升了下遊客戶購買的算力價效比。
2)從片間互聯能力來看: 市場上主流 的AI伺服器仍然是傳統的8卡伺服器架構,而伴隨Blackwell平台推出的最多可以支持576卡互聯,片間互聯數量和頻寬的提升極大改善了輝達平台的推理和訓練效能。
GB200 NVL72 Rack內部的GPU之間的互聯,輝達采用了高速銅纜的方案,優點包括:
1)成本低 ——相較於光模組,高速銅纜在相同成本的情況下可以提供更高的互聯頻寬,從而提升Rack的推理以及訓練效率;
2)功耗低 ——采用銅互聯方案可以節省光電轉換產生的能量損耗,同時也降低了散熱問題;
3)故障率低 ——光模組每年有2%-5%的損壞率,而銅連線更加穩定。
除了GPU之間,Compute Tray內部以及Rack之間也可以采用銅互連的方案。 在輝達的高速銅纜解決方案中,Compute Tray內部采用跳 線對GPU、網卡等產品進行互聯;同時多個Rack之間也可以采用銅纜的方案,GB200的Rack架構下,銅互連方案最多可以在8個Rack之間實作576卡的高速互聯。
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。