超萬卡集群的核心設計原則和架構

2024-05-20碼農

當前，超萬卡集群的建設仍處於起步階段，主要依賴輝達GPU及配套裝置實作。輝達作為全球領先的GPU供應商，其產品在大模型訓練上有較大優勢。得益於政策加持和套用驅動，國產AI芯片在這兩年取得長足進步，但在整體效能和生態構建方面仍存在一定差距。構建一個基於國產生態體系、技術領先的超萬卡集群仍面臨諸多挑戰。

隨著大模型從千億參數的自然語言模型向萬億參數的多模態模型升級演進，超萬卡集群亟需全面提升底層計算能力。具體而言，包括增強單芯片能力、提升超節點計算能力、基於DPU實作多計算能力融合以及追求極致算力能效比，具體參閱文章「」。

1、超萬卡集群核心設計原則

在大算力結合大數據生成大模型的發展路徑下，超萬卡集群的搭建不是簡簡單單的算力堆疊，要讓數萬張GPU卡像一台「超級電腦」一樣高效運轉，超萬卡集群的總體設計應遵循以下五大原則：

●堅持打造極致集群算力：基於Scale-up互聯打造單節點算力峰值，基於Scale-out互聯將單集群規模推高至萬卡以上，兩者疊加構建超萬卡集群的大算力基座；

●堅持構建協同調優系統：依托超大規模的算力集群，透過DP/PP/TP/EP等各種分布式並列訓練策略，持續提升有效算力，實作極致的計算通訊比，最大化模型開發效率；

●堅持實作長穩可靠訓練：具備自動檢測和修復軟硬體故障的能力，面向千萬器件滿負荷執行系統，持續提升MTBF和降低MTTR並實作自動斷點續訓能力，支持千億稠密、萬億稀疏大模型百天長穩訓練，保證系統穩定性和魯棒性；

●堅持提供靈活算力供給：支持集群算力排程，提供靈活彈性的算力供給和隔離手段，實作訓練和推理資源的按需調配，保持單集群大作業和多租戶多工並列訓練效能持平；

●堅持推進綠色低碳發展：持續推進全套液冷解決方案在超萬卡集群的套用，追求極致綠色算力能效比(FLOPs/W)和極低液冷PUE至1.10以下。

2、超萬卡集群整體架構設計

超萬卡集群的總體架構由四層一域構成(如圖1)，四層分別是機房配套、基礎設施、智算平台和套用使能，一域是智算營運和運維域。

●機房配套層：匹配超萬卡集群高密集約的建設模式，機房配套設施需重點考慮高效供電、制冷設計、樓板承重和走線架設計等。

●基礎設施層：算、網、存三大硬體資源有機配合，達成集群算力最優。面向算力，CPU、GPU、DPU三大芯片協同，最大化發揮集群計算能力；面向網路，參數面、數據面、業務面、管理面獨立組網，參數面/數據面采用大頻寬RoCE交換和二層無阻塞CLOS組網滿足大象流，支持參數面負載均衡和多租安全隔離；面向儲存，引入融合儲存和分級儲存支持無阻塞數據並行存取。

●智算平台層：采用K8s,對上提供以裸金屬和容器為主的集群資源。在對集群資源進行納管的基礎上，進一步實作大規模集群的自動化精準故障管理，以達成高效訓練、長穩執行的目標。面向未來，考慮集群中引入異廠家GPU芯片，為避免智算碎片化問題，引入算力原生，實作套用跨架構遷移和異構混訓等平台能力。

●套用使能層：包括模型訓練框架和開發工具集兩個模組，一方面基於現有開源框架能力，進行分布式訓練調優，面向未來開展自動分布式訓練框架設計，積累經驗，實作對通訊和計算重疊的最佳化、算子融合以及網路效能的高效調優；另一方面，研發沈澱數據服務、模型部署開發等工具集，逐步實作由人工處理到基於工具對外提供自動化模型研發能力的轉變。

●智算營運和運維域：支持超萬卡集群高效集合通訊和排程。支持按租戶靈活資源發放和任務排程，支持多工並列訓練。

相關閱讀：

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 399 元)。

溫馨提示：

掃描 二維碼 關註公眾號，點選 閱讀原文 連結獲取「 架構師技術全店資料打包匯總(全) 」電子書資料詳情。