當前位置: 妍妍網 > 碼農

模型變革:從雲到端,雲端融合(2024)

2024-06-22碼農

本文參考自「 」,從GPT-1到GPT-5,GPT模型的智慧化程度不斷提升。 ChatGPT在擁有3000億單詞的語料基礎上預訓練出擁有1750億個參數的 模型(GPT-2僅有15億參數),預訓練數據量從5GB增加到45TB。

AI對雲廠商資本開支需求的拉動始於2023年四季度,據一季度各大雲廠商的資本開支及指引, 預計2024年北美雲商資本開支有望重回高速增 長態勢。

Transformer算力需求在2年內增長750倍,平均每年以接近10倍的速度增長;輝達平均每2年左右推出一代加速卡,從A系列到B系列的升級 節奏來看,每一代產品算力提升振幅在3倍左右,價格提升振幅比算力提升振幅略低。 綜合大模型的參數增長和算力的單位價格來看,過去5年 大模型訓練對資本開支的需求持續快速提升,未來大模型參數的持續提升仍將帶動算力需求激增。

在生成式AI場景下,模型訓練和推理所需的算力與參數大小成正相關。

1)訓練 所需的算力和模型參數以及訓練集大小(Token)數量成 正比;

2)推理 所需的算力和模型參數,回答大小,以及存取量成正比關系。

當前大模型參數仍以較快速度增長,後續將推出的GPT-5模型,參數有望達到十萬億量級,有望引起大模型以及雲廠商在算力領域的新一 輪競賽,拉動下遊算力需求。

AI大模型的算力需求在過去幾年呈現快速增長的態勢,Transformer算力需求在2年內增長750倍, 平均每年以接近10倍的速度增長。 以Open AI的GPT為例,GPT 1在2018年推出,參數量級為1億個,Open AI下一代推出的GPT 5參數量級預計達到10萬億。

算力是加速卡的核心效能指標。AI芯片算力根據精度有所差異,一般神經網路的標準訓練精度是32位元浮點數,但有時為了節省時間和資源,也 可以使用16位元浮點數進行訓練,推理時對算力精度的要求相對較低,而對功耗、推理成本、響應速度等要求較高,通常采用INT8算力。

輝達的加速卡在算力方面仍處於行業領先地位 ,最新一代Blackwell平台加速卡不僅在8~32位元推理算力中顯著超過競爭對手,還額外提供了 FP4算力用於低精度的推理場景。

其他廠商來看,AMD在算力方面與輝達最為接近, 並且在FP64算力上超越輝達最新一代的產品,更適合用於科學計算的場景。而目前其他 的互聯網公司自研加速卡與輝達仍有較大差距。

輝達的NV Link和NV Switch保持著2年一代的升級節奏,目前NV Link頻寬已達到1.8TB/s的雙向 互聯,在市面上處於領先地位。

競爭對手的情況來看,AMD和谷歌的片間互聯頻寬分別達到了896GB/s和600GB/s,與輝達的上一代H系列產品較為接近, 而其他雲廠商自 研加速卡大多采用PCIe通訊協定,在片間互聯能力方面與輝達仍有較大的差距。

據TechInsights,2023年輝達占全球數據中心GPU出貨量份額的98%,處於壟斷地位。

同時,AMD、谷歌、特斯拉等廠商相繼推出MI300系列、TPU V5以及Dojo D1等產品,挑戰輝達的壟斷地位,盡管2024年4月輝達推出的B系列 加速卡再一次在算力方面與競爭對手甩開差距,但當前全球加速卡市場競爭者不斷增加已成定局。

國內市場方面, 伴隨美國禁令趨嚴,2023年10月17日美國商務部公布算力芯片出口管制新規,A100、H100、A800、H800、L40、L40S等芯片進 入管制名單,同時國內昇騰、寒武紀等龍頭廠商產品能力不斷追趕海外龍頭, AI芯片國產化成為大趨勢。

輝達 自2020年以來,平均每2年推出一代產品,每一代產品在算力、互聯頻寬等指標方面的提升 振幅均在一倍左右。

訓練卡方面, 除了輝達常規的H100、B100等加速卡外,H系列以後,輝達還增加了H200、B200等產品,從而給客戶提供更多的產品 選擇和更好的價效比,例如H200加速卡在HBM容量方面相較於H100均有較大提升,但價格方面提升振幅相對較少。

推理卡方面, 2024年輝達的產品出貨以L40和L40S為主,並且推出了L20,L2,L4等產品供客戶選擇。

2023年12月,谷歌推出面向雲端的AI 加速卡TPU v5p,相較於TPU V4,TPU v5p提供了二倍的浮點運算能力和三倍記憶體頻寬提升,芯片間的互聯頻寬最高可以達到600GB/s。 其他雲廠商也紛紛推出自研加速卡計劃。

1)Meta: 2023年,Meta宣布自研MTIA v1芯片,2024年4月,Meta釋出最新版本MTIA v2加速卡;

2)微軟: 微軟Azure的企業數量已經達到25萬家,微軟的Maia 100在2023年推出,專為Azure雲服務設計;

3)亞馬遜: 2023年,亞 馬遜推出了用於訓練的Trainium2加速卡,以及用於推理的Graviton4加速卡,目前亞馬遜在訓練和推理卡均有布局。

以AMD的MI300X為例,這顆加速卡在Int8、FP16、FP32算力方面均為H100的1.3倍,互聯頻寬 方面達到了接近於NV Link4.0的896GB/s雙向互聯,FP64算力和HBM容量更是達到了H100的2倍以上,一系列的堆料和價格優勢使得下遊雲廠商考慮轉用一部份AMD的產品。

相較於H100,H200將此前的HBM3提升為HBM3E,同時將HBM容量從上一代的 80GB提升至141GB。在價格方面,H200相較於上一代產品體現出極強的價效比,該款加速卡發售後預計將受到下遊客戶的歡迎。 輝達的 下一代Blackwell GPU系列產品,在算力、記憶體和互聯頻寬的AI三要素領域與競爭對手的差距進一步拉開,鞏固了輝達的領先地位。

GB200 NVL72顯著拉開了輝達與其競爭對手的差距。 輝達透過架構的創新,解決了GPU之間互聯頻寬的問題,實作了最多576張卡 1.8TB/s的雙向互聯頻寬,顯著領先其他競爭對手,使得GB200 NVL72的推理效能達到H100的30倍。

1)從價效比來看: NVL 72的集群規模增大,一方面 節省了除算力芯片以外的系統成本,另一方透過提升產品效能,間接提升了下遊客戶購買的算力價效比。

2)從片間互聯能力來看: 市場上主流 的AI伺服器仍然是傳統的8卡伺服器架構,而伴隨Blackwell平台推出的最多可以支持576卡互聯,片間互聯數量和頻寬的提升極大改善了輝達平台的推理和訓練效能。

GB200 NVL72 Rack內部的GPU之間的互聯,輝達采用了高速銅纜的方案,優點包括:

1)成本低 ——相較於光模組,高速銅纜在相同成本的情況下可以提供更高的互聯頻寬,從而提升Rack的推理以及訓練效率;

2)功耗低 ——采用銅互聯方案可以節省光電轉換產生的能量損耗,同時也降低了散熱問題;

3)故障率低 ——光模組每年有2%-5%的損壞率,而銅連線更加穩定。

除了GPU之間,Compute Tray內部以及Rack之間也可以采用銅互連的方案。 在輝達的高速銅纜解決方案中,Compute Tray內部采用跳 線對GPU、網卡等產品進行互聯;同時多個Rack之間也可以采用銅纜的方案,GB200的Rack架構下,銅互連方案最多可以在8個Rack之間實作576卡的高速互聯。

相關閱讀:

轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

溫馨提示:

掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情