超萬卡訓練集群互聯關鍵技術

2024-05-17碼農

隨著大模型從千億參數的自然語言模型向萬億參數的多模態模型升級演進，超萬卡集群亟需全面提升底層計算能力。具體而言，包括增強單芯片能力、提升超節點計算能力、基於DPU(Data Processing Unit)實作多計算能力融合以及追求極致算力能效比。這些系統性的提升將共同支持更大規模的模型訓練和推理任務，滿足迅速增長的業務需求。

相關閱讀：

1、單芯片能力

超萬卡集群中，單芯片能力包括單個GPU的計算效能和GPU視訊記憶體的存取效能。在單個GPU計算效能方面，首先需要設計先進的GPU處理器，在功耗允許條件下，研發單GPU更多並列處理核心，努力提高執行頻率。其次，透過最佳化快取設計，減少GPU存取記憶體延遲，進一步提升單GPU芯片執行效率。第三，最佳化浮點數表示格式，探索從FP16到FP8浮點數的表示格式，透過在芯片中引入新的儲存方式和精度，在保持一定精度條件下，大幅提升計算效能。最後，針對特定計算任務，可在GPU芯片上整合客製化的硬體加速邏輯單元，這種基於DSA(DomainSpecificArchitecture)的平行計算設計，可提升某些特定業務領域的計算速度。

在GPU視訊記憶體存取效能方面，為了將萬億模型的數據布放在數萬張GPU視訊記憶體上，要求視訊記憶體支持高頻寬、大容量的能力，確保計算單元能夠高效完成訪存任務，維持系統的低能耗執行。為便捷存取視訊記憶體數據，建議GPU視訊記憶體采用基於2.5D/3D堆疊的HBM技術[6],減少數據傳輸距離，降低訪存延遲，提升GPU計算單元與視訊記憶體之間的互聯效率。

透過這些技術的實施，超萬卡集群不僅能夠為智算中心提供強大的單卡算力處理能力，還能為未來更大規模的模型訓練和推理任務奠定堅實的硬體基礎。

2、超節點計算能力

針對萬億模型的訓練與推理任務，特別是在超長序列輸入和MoE架構的套用背景下，應重點最佳化巨量參數和龐大數據樣本的計算效率，滿足由此引發的All2All通信模式下的GPU卡間通訊需求。為此，建議超萬卡集群的改進策略集中在以下幾個關鍵領域：

●加速推進超越單機8卡的超節點形態伺服器

為滿足萬億或更大參數量模型的部署需求，建議產業界致力於研制突破單機8卡限制的超節點形態伺服器，透過利用提高GPU南向的Scale up互聯能力，提升張量並列或MoE並列對大模型訓練任務的收益，實作效能躍升，縮短訓練總時長，實作大模型訓練整體效能的最佳化。

●加快引入面向Scale up的Switch芯片

建議在節點內整合支持Scale up能力的Switch芯片，以最佳化GPU南向的互聯效率和規模，增強張量並列或MoE並列的數據傳輸能力。如圖2所示，透過引入節點內的Switch芯片，以增強GPU卡間的點對點(Point to Point,P2P)頻寬，有效提升節點內的網路傳輸效率，滿足大模型日益增長的GPU互聯和頻寬需求為大規模平行計算任務提供強有力的硬體支持。

●最佳化GPU卡間互聯協定

以實作通訊效率躍升建議對GPU卡間互聯協定進行系統性最佳化和重構，以提升All2All模式下的通訊效率。透過重新設計卡間通訊過程中的資料包格式、引入CPO/NPO、提高和最佳化SerDes傳輸速率、最佳化擁塞控制和重傳機制以及多異構芯片C2C(Chip-to-Chip)封裝等多種途徑，提高超萬卡集群的GPU卡間互聯的網路利用率，減少通訊時延，實作頻寬能力躍升，從而支持所需的更高頻次、更大頻寬和更低延遲通訊特性。

3、多計算能力融合

面向超萬卡集群，考慮到智算中心內部成倍增長的數據交換需求，透過堆疊CPU資源來處理網路數據的做法無疑是低效且昂貴的，對此，智算中心的計算架構需要轉變方向，將原本執行在CPU、GPU中的數據處理任務解除安裝至具有層級化可編程、低時延網路、統一管控等特性的DPU上執行，在大幅擴充套件節點間算力連線能力的同時，釋放CPU、GPU的算力，降低節點間的CPU、GPU協作成本，支撐集群發揮更大的效能。

具體地，可以對智算中心進行軟硬一體重構，打造計算、儲存、網路、安全、管控五大引擎，定義標準化的DPU片上驅動內核：

●計算引擎解除安裝加速I/O裝置的數據路徑與控制路徑，面向節點提供標準化的virtio-net(Virtual l/O Network)、virtio-blk(Virtiual l/O block)後端介面，遮蔽廠商專用驅動。

●儲存引擎在DPU上實作儲存後端介面，可基於傳統TCP/IP網路協定棧或RDMA(Remote Direct Memory Access)網路功能連線塊儲存集群、物件儲存集群、檔儲存集群及檔儲存集群，將節點的全型別儲存任務解除安裝至DPU中完成。

●網路引擎將虛擬交換機解除安裝至DPU上，采用標準的流表和解除安裝介面實作網路流量的解除安裝，全線速釋放硬體效能；同時整合RDMA網路功能，降低多機多卡間端到端通訊時延，提升多機間端到端通訊頻寬至400G級別，構建節點間數據交換的「高速通道」。

●安全引擎透過信任根機制以及標準的IPsec等加密通訊協定對系統和多租戶網路進行安全防護，並基於DPU提供有效的解除安裝方案。

●管控引擎遮蔽裸金屬、虛擬機器和容器等算力單元的形態差異，實作DPU資源統一管理和全鏈路管控運維。

● 以上述五大引擎為藍圖，中國移動於2020開始打造具有自主智慧財產權的磐石DPU,並於2021年正式推出磐石DPU版本。經過移動雲現網的打磨，中國移動持續升級磐石DPU產品能力，並於2024年將磐石DPU的FPGA架構全面升級為ASIC架構，旨在圍繞磐石DPU軟硬融合重構算力基礎設施，重新定義算力時代雲端運算技術新標準，構建算力時代新技術曲線。

將以磐石DPU為代表的DPU芯片融入現有智算中心技術體系，將算力集群由CPU+GPU雙平台支撐擴充套件至由CPU+GPU+DPU三平台支撐，可以有效聯合集群節點間因數據I/O瓶頸而產生的算力孤島，突破現有技術架構下的集群規模極限，使超萬卡集群成為可能。

4、極致算力能效比

在制程工藝相對固定的條件下，芯片的高效能無疑會增加芯片的功耗，從而影響整機的散熱。面對高效能計算芯片功率密度急劇上升的現狀，需要透過制冷系統和GPU芯片兩方面進行最佳化。

在制冷系統方面，當前單機8卡GPU 伺服器功耗已經數倍於通用伺服器，由於GPU的散熱量大幅增加，為了增加計算密度，節省空間，超萬卡集群建議采用當前較成熟的高密度冷板式液冷機櫃，一個液冷機櫃可容納多台液冷GPU訓練伺服器，相比傳統風冷機櫃大幅提升空間利用率。

在GPU芯片方面，為了提升GPU單芯片的能效比，應采取多領域的最佳化策略，實作高效能與低能耗之間的平衡。在芯片工藝領域，建議采用更加先進的半導體制造工藝，如7nm或更小的特征尺寸，以此降低晶體管的功耗，同時提升單芯片整合度。此外，應加強超萬卡集群內GPU架構的創新設計，包括最佳化片上匯流排設計、改進流水線結構、最佳化電壓和頻率策略以及精確的時鐘門控技術，從而在不同工作狀態下實作最優的能耗效率。在軟體層面，超萬卡集群應采用更加精細的監控和分析，即時跟蹤GPU的執行數據，並不斷最佳化演算法和工作負載分配，以實作更加均衡和高效的算力利用。透過上述設計和最佳化，不僅能提高使用者的計算體驗，降低成本，也為智算中心永續發展和綠色環保提出了可行方案。

5、高效能融合儲存技術

為了實作儲存空間高效利用、數據高效流動，並支持智算集群大規模擴充套件，超萬卡集群應采用多協定融合和自動分級儲存技術，提升智算數據處理效率，助力超萬卡集群支撐千億乃至萬億大模型訓練。

6、多協定融合

超萬卡集群融合儲存底座承載Al全流程業務數據處理，相容Al全流程工具鏈所需的NFS(Network File System)、S3(Sample Storage Service)和並列客戶端POSIX(Portable Operating System Interface)等協定，支持各協定語意無失真，達到與原生協定一樣的生態相容性要求，在不同階段實作數據零拷貝和格式零轉換，確保前一階段的輸出可以作為後一階段的輸入，實作Al各階段協同業務的無縫對接，達到「零等待」效果，顯著提升大模型訓練效率。

7、集群高吞吐效能

為滿足超萬卡集群大模型對於儲存高吞吐效能需求，基於全域檔案系統技術，可支持超3000節點擴充套件規模，為大模型訓練提供百PB級全快閃記憶體儲大集群能力，從快閃記憶體密度、數據面網路、並列客戶端和對等通訊機制等多個維度全面提升儲存系統效能，實作儲存集群10TB/s級聚合吞吐頻寬、億級IOPS,智慧算力利用率提升20%以上，大模型checkpoint恢復時長從分鐘級提升至秒級，同時對高價值智算儲存數據提供強一致性存取和99.9999%可靠效能力。

8、大規模機間高可靠網路技術

超萬卡集群網路包括參數面網路、數據面網路、業務面網路、管理面網路。業務面網路、管理面網路一般采用傳統的TCP方式部署，參數面網路用於計算節點之間參數交換，要求具備高頻寬無失真能力。數據面網路用於計算節點存取儲存節點，也有高頻寬無失真網路的訴求。超萬卡集群對參數面網路要求最高，主要體現在四個方面：大規模，零丟包，高吞吐，高可靠。

目前業界成熟的參數面主要包括IB(InfiniBand)和RoCE兩種技術。面向未來Al大模型演進對網路提出的大規模組網和高效能節點通訊需求，業界也在探索基於乙太網路新一代智算中心網路技術，包括由中國移動主導的全排程乙太網路(GlobalScheduled Ethernet,GSE)方案[6]和Linux Foundation成立的超乙太網路聯盟(UltraEthernet Consortium,UEC),兩者透過革新乙太網路現有通訊棧，突破傳統乙太網路效能瓶頸，為後續人工智慧和高效能計算提供高效能網路。中國移動也將加速推動GSE技術方案和產業成熟，提升Al網路效能，充分釋放GPU算力，助力Al產業發展。

9、大規模組網

根據不同的Al伺服器規模，參數面網路推薦采用Spine-Leaf兩層組網或胖樹 (Fat-Tree)組網。

Spine-Leaf兩層組網如圖3所示。每8台Leaf交換機和下掛的Al伺服器做為一個group,以group為單位進行擴充套件。在group內部，推薦采用多軌方案將Al伺服器連線至Leaf交換機，即所有Al伺服器的1號網口都上連至Leafl,所有2號網口上連至Leaf2,依此類推，所有8號網口上連至Leaf8。Spine交換機和Leaf交換機之間采用Fullmesh全連線。Leaf交換機上下行收斂比為1:1。

胖樹(Fat-Tree)組網由Leaf交換機、Spine交換機和Core交換機組成，如圖4所示。每8台Leaf交換機和下掛的Al伺服器做為一個group,8台Leaf交換機又和上面N台Spine交換機組成一個pod,胖樹組網以pod為單位進行擴充套件。在胖樹組網中，Spine交換機和Leaf交換機之間采用Fullmesh全連線，所有Spinel都Full-Mesh連線至第一組Core,所有Spine2都Full-Mesh連線至第二組Core,依次類推。Spine交換機和Leaf交換機上下行收斂比都為1:1。

10、高容錯高效能平台技術

智算平台是智算中心承載模型訓練、推理和部署的綜合性平台系統，在智算中心技術體系架構中承擔著重要的角色，對算力基礎設施進行統一納管、排程、分配和全生命周期管理，主要包含對計算、儲存、網路等laaS資源的雲化管控，在此基礎上透過雲原生的容器底座能力，實作智算資源納管分配、Al任務作業排程、拓撲感知排程、訓練全鏈路監控等滿足智算業務的核心需求。

11、斷點續訓高容錯能力

大模型訓練面臨的困難在於確保訓練任務能夠持續進行而不中斷。在訓練過程中，可能會遇到硬體故障、軟體故障、網路故障以及其他故障。這種頻繁中斷導致的訓練進度的損失對於耗時又耗資源的大模型訓練來說是難以承受的，需要具備自動故障檢測和訓練重新開機。當前業界大模型訓練主要容錯方案依賴於訓練過程中周期性保存checkpoint,故障發生後從上一個周期性checkpoint重新啟動訓練。

基於平台的運維監控能力，可以實作對超萬卡集群的軟硬體故障檢測和預警，但是當故障發生且導致模型訓練中斷或停止時，通常需要人工介入排查故障資訊，隔離故障並重新觸發容器pod資源排程，重新完成並列訓練中集合通訊的初始化，重新載入基於中斷前最近一次保存的checkpoint資訊，最後經歷算子庫的重新編譯，完成訓練任務的繼續。

在斷點續訓過程中，checkpoint是模型中斷訓練後恢復的關鍵點，因此checkpoint密集程度、保存和恢復的效能尤為重要，checkpoint本身的耗時與模型的大小成正比，當模型參數達到百億甚至千億時，checkpoint的時間開銷通常在幾分鐘到十幾分鐘之間。此時，訓練任務需要暫停，使得使用者難以頻繁進行checkpoint操作，因此為保證訓練效率，會適當拉長checkpoint保存周期。然而，一旦發生中斷，之前損失的叠代次數在恢復時需要重新計算，需要花費更長的時間。

為解決該問題，需要盡量降低checkpoint流程的開銷，既能大幅降低訓練暫停時間，也能支持高頻的checkpoint來減少容錯時浪費的叠代步數。業界通常采用checkpoint多級儲存的方式，構建基於更高10效能的記憶體介質構建儲存系統，相比於磁盤或者網路檔儲存系統，checkpoint在記憶體空間的保存可以大幅縮短訓練暫停等待時間。同時，結合業務需求定期地將checkpoint異步寫入到持久化的儲存系統中，異步流程不幹擾正常的訓練。當發生故障導致訓練任務重新開機時，由於記憶體系統中的checkpoint數據並未遺失，新啟動的訓練行程可以直接讀取記憶體系統中的checkpoint數據來載入模型和最佳化器狀態，從而省去了讀取網路儲存系統的IO開銷。

相關閱讀：

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 399 元)。

溫馨提示：

掃描 二維碼 關註公眾號，點選 閱讀原文 連結獲取「 架構師技術全店資料打包匯總(全) 」電子書資料詳情。