本文來自「 」,Open AI的大型語言生成模型ChatGPT火熱,它能勝任刷高情商對話、生成程式碼、構思劇本和小說等多個場景,將人機對話推向新的高度。全球各大科技企業都在積極擁抱AIGC,不斷推出相關技術、平台和套用。
1、AIGC火熱,產業生態形成
生成演算法、預訓練模式、多模態等AI技術累計融合,催生了AIGC的大爆發。
目前,AIGC產業生態體系的雛形已現,呈現為上中下三層架構:①第一層為上遊基礎層,也就是由預訓練模型為基礎搭建的AIGC技術基礎設施層。②第二層為中間層,即垂直化、場景化、個人化的模型和套用工具。③第三層為套用層,即面向C端使用者的文字、圖片、音視訊等內容生成服務。
根據IDC釋出的【2022年第四季度中國伺服器市場跟蹤報告Prelim】,浪潮份額國內領先,新華三次之,超融合排行第三,中興通訊進入前五。
2、伺服器基本整體構成
伺服器主要硬體包括處理器、記憶體、芯片組、I/O (RAID卡、網卡、HBA卡) 、硬碟、機箱 (電源、風扇)。以一台普通的伺服器生產成本為例,CPU及芯片組大致占比50% 左右,記憶體大致占比 15% 左右,外部儲存大致占比10%左右,其他硬體占比25%左右。
伺服器的邏輯架構和普通電腦類似。但是由於需要提供高效能計算,因此在處理能力、穩定性、可靠性、安全性、可延伸性、可管理性等方面要求較高。
邏輯架構中,最重要的部份是CPU和記憶體。CPU對數據進行邏輯運算,記憶體進行數據儲存管理。
伺服器的固件主要包括BIOS或UEFI、BMC、CMOS,OS包括32位元和64位元。
3、大模型參數量持續提升
GPT模型對比BERT模型、T5模型的參數量有明顯提升。GPT-3是目前最大的知名語言模型之一,包含了1750億(175B)個參數。在GPT-3釋出之前,最大的語言模型是微軟的Turing NLG模型,大小為170億(17B)個參數。 訓練數據量不斷加大,對於算力資源需求提升 。
回顧GPT的發展,GPT家族與BERT模型都是知名的NLP模型,都基於Transformer技術。GPT,是一種生成式的預訓練模型,由OpenAI團隊最早釋出於2018年,GPT-1只有12個Transformer層,而到了GPT-3,則增加到96層。其中,GPT-1使用無監督預訓練與有監督微調相結合的方式,GPT-2與GPT-3則都是純無監督預訓練的方式,GPT-3相比GPT-2的前進演化主要是數據量、參數量的數量級提升。
4、未來異構計算或成為主流
異構計算(Heterogeneous Computing)是指使用不同型別指令集和體系架構的計算單元組成系統的計算方式,目前主要包括GPU雲伺服器、FPGA雲伺服器和彈性加速計算例項EAIS等。讓最適合的專用硬體去服務最適合的業務場景。
在CPU+GPU的異構計算架構中,GPU與CPU透過PCle匯流排連線協同工作,CPU所在位置稱為主機端 (host),而GPU所在位置稱為裝置端(device)。基於CPU+GPU的異構計算平台可以優勢互補,CPU負責處理邏輯復雜的串行程式,而GPU重點處理數據密集型的平行計算程式,從而發揮最大功效。
越來越多的AI計算都采用異構計算來實作效能加速。
阿裏第一代計算型GPU例項,2017年對外釋出GN4,搭載Nvidia M40加速器.,在萬兆網路下面向人工智慧深度學習場景,相比同時代的CPU伺服器效能有近7倍的提升。
5、為什麽GPU適用於AI
CPU 適用於一系列廣泛的工作負載,特別是那些對於延遲和單位內核效能要求較高的工作負載。作為強大的執行引擎,CPU 將它數量相對較少的內核集中用於處理單個任務,並快速將其完成。這使它尤其適合用於處理從序列計算到資料庫執行等型別的工作。
GPU 最初是作為專門用於加速特定 3D 渲染任務的 ASIC 開發而成的。隨著時間的推移,這些功能固定的引擎變得更加可編程化、更加靈活。盡管圖形處理和當下視覺效果越來越真實的頂級遊戲仍是 GPU 的主要功能,但同時,它也已經演化為用途更普遍的並列處理器,能夠處理越來越多的應用程式。
訓練和推理過程所處理的數據量不同。
在AI實作的過程中,訓練(Training)和推理(Inference)是必不可少的,其中的區別在於:
訓練過程:又稱學習過程,是指透過大數據訓練出一個復雜的神經網路模型,透過大量數據的訓練確定網路中權重和偏置的值,使其能夠適應特定的功能。
推理過程:又稱判斷過程,是指利用訓練好的模型,使用新數據推理出各種結論。
簡單理解,我們學習知識的過程類似於訓練,為了掌握大量的知識,必須讀大量的書、專心聽老師講解,課後還要做大量的習題鞏固自己對知識的理解,並透過考試來驗證學習的結果。分數不同就是學習效果的差別,如果考試沒透過則需要繼續重新學習,不斷提升對知識的掌握程度。而推理,則是套用所學的知識進行判斷,比如診斷病人時候套用所學習的醫學知識進行判斷,做「推理」從而判斷出病因。
訓練需要密集的計算,透過神經網路算出結果後,如果發現錯誤或未達到預期,這時這個錯誤會透過網路層反向傳播回來,該網路需要嘗試做出新的推測,在每一次嘗試中,它都要調整大量的參數,還必須兼顧其它內容。再次做出推測後再次校驗,透過一次又一次迴圈往返,直到其得到「最優」的權重配置,達成預期的正確答案。如今,神經網路復雜度越來越高,一個網路的參數可以達到百萬級以上,因此每一次調整都需要進行大量的計算。吳恩達(曾在谷歌和百度任職)舉例「訓練一個百度的漢語語音辨識模型不僅需要4TB的訓練數據,而且在整個訓練周期中還需要20 exaflops(百億億次浮點運算)的算力」,訓練是一個消耗巨量算力的怪獸。
推理是利用訓練好的模型,使用新數據推理出各種結論,它是借助神經網路模型進行運算,利用輸入的新數據「一次性」獲得正確結論的過程,他不需要和訓練一樣需要迴圈往復的調整參數,因此對算力的需求也會低很多。
推理常用:NVIDIA® T4 GPU 為不同的雲端工作負載提供加速,其中包括高效能計算、深度學習訓練和推理、機器學習、數據分析和圖形學。引入革命性的 Turing Tensor Core 技術,使用多精度計算應對不同的工作負載。從 FP32 到 FP16,再到 INT8 和 INT4 的精度,T4 的效能比 CPU 高出 40 倍,實作了效能的重大突破。
訓練:A100和H100。對於具有龐大數據表的超大型模型,A10080GB 可為每個節點提供高達 1.3TB 的統一視訊記憶體,而且吞吐量比A100 40GB 多高達 3 倍。在 BERT 等先進的對話式 AI 模型上,A100 可將推理吞吐量提升到高達 CPU 的 249 倍。
6、推算ChatGPT帶來的伺服器需求增量
H100效能更強,與上一代產品相比,H100 的綜合技術創新可以將大型語言模型的速度提高 30 倍。根據Nvidia測試結果,H100針對大型模型提供高達 9 倍的 AI 訓練速度,超大模型的 AI 推理效能提升高達 30 倍。
在數據中心級部署 H100 GPU 可提供出色的效能,並使所有研究人員均能輕松使用新一代百億億次級 (Exascale)高效能計算 (HPC) 和萬億參數的 AI。
H100 還采用 DPX 指令,其效能比 NVIDIA A100 Tensor Core GPU 高 7 倍,在動態編程演算法(例如,用於DNA 序列比對 Smith-Waterman)上比僅使用傳統雙路 CPU 的伺服器快 40 倍。
假設套用H100伺服器進行訓練,該伺服器AI算力效能為32 PFLOPS,最大功率為10.2 kw,則我們測算訓練階段需要伺服器數量=訓練階段算力需求÷伺服器AI算力效能=4.625×107台(同時工作1秒),即535台伺服器工作1日。
根據天翼智庫,GPT-3模型參數約1750億個,預訓練數據量為45 TB,折合成訓練集約為3000億tokens。按照有效算力比率21.3%來計算,訓練階段實際算力需求為1.48×109 PFLOPS。
對AI伺服器訓練階段需求進行敏感性分析,兩個變化參數:①同時並列訓練的大模型數量、②單個模型要求訓練完成的時間。
按照A100伺服器5 PFLOPs,H100伺服器32 PFLOPs來進行計算。
若不同廠商需要訓練10個大模型,1天內完成,則需要A100伺服器34233台,需要H100伺服器5349台。
此外,若後續GPT模型參數叠代向上提升(GPT-4參數量可能對比GPT-3倍數級增長),則我們測算所需AI伺服器數量進一步增長。
7、AI伺服器市場規模預計將高速增長
AI伺服器作為算力基礎裝置,其需求有望受益於AI時代下對於算力不斷提升的需求而快速增長。
根據TrendForce,截至2022年為止,預估搭載GPGPU(General Purpose GPU)的AI伺服器年出貨量占整體伺服器比重近1%,預估在ChatBot相關套用加持下,有望再度推動AI相關領域的發展,預估出貨量年成長可達8%;2022~2026年復合成長率將達10.8%。
AI伺服器是異構伺服器,可以根據套用範圍采用不同的組合方式,如CPU + GPU、CPU + TPU、CPU +其他加速卡等。IDC預計,中國AI伺服器2021年的市場規模為57億美元,同比增長61.6%,到2025年市場規模將增長到109億美元,CAGR為17.5%。
8、AI伺服器構成及形態
以浪潮NF5688M6 伺服器為例,其采用NVSwitch實作GPU跨節點P2P高速通訊互聯。整機8 顆 NVIDIAAmpere架構 GPU,透過NVSwitch實作GPU跨節點P2P高速通訊互聯。配置 2顆第三代Intel® Xeon® 可延伸處理器(Ice Lake),支持8塊2.5英寸NVMe SSD orSATA/SAS SSD以及板載2塊 SATA M.2,可選配1張PCIe 4.0 x16 OCP 3.0網卡,速率支持10G/25G/100G;可支持10個PCIe 4.0 x16插槽, 2個PCIe 4.0 x16插槽(PCIe 4.0 x8速率), 1個OCP3.0插槽;支持32條DDR4RDIMM/LRDIMM記憶體,速率最高支持3200MT/s,物理結構還包括6塊3000W 80Plus鉑金電源、N+1冗余熱插拔風扇、機箱等。
目前按照GPU數量的不同,有4顆GPU(浪潮NF5448A6)、8顆GPU(Nvidia A100 640GB)以及16顆GPU(NVIDIA DGX-2)的AI伺服器。
9、AI伺服器產業鏈
AI伺服器核心元件包括GPU(圖形處理器)、DRAM(動態隨機存取記憶體)、SSD(固態硬碟)和RAID卡、CPU(中央處理器)、網卡、PCB、高速互聯芯片(板內)和散熱模組等。
CPU主要供貨廠商為Intel、GPU目前領先廠商為國際巨頭輝達,以及國內廠商如寒武紀、海光資訊等。
記憶體主要為三星、美光、海麗仕等廠商,國內包括兆易創新等。
SSD廠商包括三星、美光、海麗仕等,以及國內江波龍等廠商。
PCB廠商海外主要包括金像電子,國內包括滬電股份、鵬鼎控股等。
主機板廠商包括工業富聯,伺服器品牌廠商包括浪潮資訊、紫光股份、中科曙光、中興通訊等。
10、AI伺服器競爭格局
IDC釋出了【2022年第四季度中國伺服器市場跟蹤報告Prelim】。從報告可以看到,前兩名浪潮與新華三的變化較小,第三名為超融合,從3.2%份額一躍而至10.1%,增幅遠超其他伺服器廠商。Top8伺服器廠商中,浪潮、戴爾、聯想均出現顯著下滑,超融合和中興則取得明顯增長。其中,浪潮份額從30.8%下降至28.1%;新華三份額從17.5%下降至17.2%;中興通訊(000063)從3.1%提升至5.3%,位居國內第5。聯想降幅最為明顯,從7.5%下降至4.9%。
據TrendForce集邦咨詢統計,2022年AI伺服器采購占比以北美四大雲端業者Google、AWS、Meta、Microsoft合計占66.2%為最,而中國近年來隨著國產化力道加劇,AI建設浪潮隨之增溫,以ByteDance的采購力道最為顯著,年采購占比達6.2%,其次緊接在後的則是Tencent、Alibaba與Baidu,分別約為2.3%、1.5%與1.5%。
國內AI伺服器競爭廠商包括:浪潮資訊、新華三、超融合、中興通訊等。
伺服器主要廠商包括:工業富聯、浪潮資訊、超融合、紫光股份(新華三)、中興通訊、中科曙光。
AI伺服器目前領先廠商為工業富聯和浪潮資訊,浪潮資訊在阿裏、騰訊、百度AI伺服器占比高達90%。
紫光股份在 GPU 伺服器市場處於領先地位,有各種型別的 GPU 伺服器滿足各種 AI 場景套用。特別針對 GPT 場景而最佳化的 GPU 伺服器已經完成開發,並取得 31 個世界領先的測試指標,該新一代系列 GPU 伺服器將在今年二季度全面上市。
中興通訊近年伺服器發展較快,年初推出AI伺服器G5伺服器,此外在布局新一代AI加速芯片、模型輕量化技術,大幅降低大模型推理成本。
相關連結:
更新提醒:「 」和「 」已經更新釋出,還沒有獲取的讀者,請在點選「原文連結」在微店留言獲取 ( PDF閱讀版本 )。
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 439 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。