本文來自「 」, 根據OpenAI的【Scaling Laws for Neural Language Model】,適當擴大模型參數量,語言模型的生成及預測能力將會提高,但這一正向關系很大程度上受到計算約束的限制,即相同的計算約束下,總有最佳的模型參數量和最大的模型有效程度。因此,如何最大程度提高集群的計算約束成為新的核心議題。
集群的有效算力可以分解為GPU利用率、集群的線性加速比,GPU的利用率受制於芯片架構的制程、記憶體和/O存取瓶頸、卡間互聯頻寬和拓撲、芯片功耗等因素,「集群線性加速比」則取決於節點的通訊能力、並列訓練框架、資源排程等因素。
因而,如何設計高效的集群組網方案,滿足低時延、大頻寬、無阻塞的機間通訊,從而降低多機多卡間數據同步的通訊耗時,提升GPU有效計算時間比(GPU計算時間/整體訓練時間)至關重要。基於中國移動研究院的【 】,AI大模型對網路建設也提出了新的要求:
1)超大規模組網: 訓練參數達到千億-萬億級別的AI超大模型代表著超高速算力需求,並進一步對應著大量的硬體需求及與之匹配的網路可延展能力。根據【 】,當單集群中卡的數量達到萬卡級別後,相應的,如何實作最優運算效率、最佳數據處理能力、硬體層面的萬卡互聯、網路系統的可用和易運維等,會成為AI智算中心的新議題。
2)超高頻寬需求: 多卡構成的算力集群內,不可避免的存在伺服器機內和機間通訊。
機內,模型並列產生的All Reduce集合通訊數據量將達到百GB級別,因此機內GPU間的通訊頻寬及方式對於流完成時間十分重要。機間,流水線並列、數據並列及張量並列模式中部份集合通訊亦將達到百GB級別,復雜的集合通訊模式將在同一時刻產生多對一、一對多的通訊,因此機間GPU的高速互聯對於網路的單埠寬頻、節點間的可用鏈路數量及網路總頻寬均提出了高要求。
3)超低時延: 資料通訊傳輸的時延分為靜態和動態時延兩個部份,靜態時延由轉發芯片的能力和傳輸的距離決定,當網路拓撲與通訊數據量確定時,此部份時延通常為固定值。動態時延包含了交換機內部排隊時延和丟包重傳時延,通常由網路擁塞、丟包與網路抖動引起。
4)超高穩定性與自動化部署: 由於卡的數量大幅增加,網路的穩定性成為網路集群的「木桶短板」,網路故障及效能波動將導致計算節點間的環通度和計算資源的利用率均受到影響。
RDMA可以降低多機多卡間端到端通訊時延。在傳統網路中,數據傳輸涉及多個步驟:首先將數據從源系統的內核復制到網路堆疊,然後透過網路發送。最後,在接收端執行多個步驟後,將數據復制到目標系統的內核中。RDMA可以繞過作業系統內核,讓一台主機可以直接存取另外一台主機的記憶體。目前RDMA技術的主要采用方案有Infiniband和RoCEv2(基於RDMA的Ethernet技術,後簡稱為RoCE)兩種。
IB(Infiniband)和RoCE(基於RDMA的Ethernet技術)是目前主流的兩種網路技術,IB架構的網路勝在低延遲及高頻寬,乙太網路則優在開放性及價效比。RoCE是套用相對廣泛,相對成熟的網路互聯技術,也是整個互聯網路大廈的基石,相容性好,可實作不同的系統之間的互連互通。同時,RoCE的供應商較多,也因此具有相對較強的價效比優勢。IB的套用領域很專,作為高頻寬、低時延、高可靠的網路互聯技術,在HPC集群領域廣泛套用。但由於供應商較少,部署成本高於RoCE。
RoCE是足夠好的方案,而InfiniBand是特別好的方案。不可否認的是,在超算集群中,IB架構仍是選擇相對較多、效率相對較高的互聯方式。雖然IB網路結構有效能優勢,基於成本和開放性考慮,大多數雲端運算公司仍表示計劃在其生產型人工智慧基礎設施中使用開源乙太網路交換機,而不是專有的IB解決方案。根據亞馬遜的高級首席工程師Brian Barrett,AWS之所以放棄IB方案,主要是因為:「雲數據中心很多時候是要滿足資源排程和共享等一系列彈性部署的需求,專用的IB網路構建的集群如同在汪洋大海中的孤島」。
2023年7月19日,在Linux基金會的牽頭下,由雲廠商(MATA、微軟),網路裝置廠商(博通、思科、惠普),半導體公司(AMD、Intel)等業界各方力量參與的UEC聯盟(UItra Ethernet Consortium超級乙太網路聯盟)成立。該聯盟將提供基於乙太網路的開放、互操作、高效能全通訊棧架構,以滿足人工智慧和高效能計算日益增長的大規模網路需求,因而我們認為UEC的成立有利於乙太網路架構在HPC等高效能計算領域的技術進步。
2000年,IB架構規範的1.0版本正式釋出。由於其最早引入RDMA協定,從而源生的具有低延遲、大頻寬、高可靠的優勢。2015年,InfiniBand技術在TOP500榜單中的占比首次超過了50%,達到51.4%(257套),InfiniBand成為超級電腦最首選的內部連線技術。
目前IB架構的供應商以Nvidia的Mellanox為主。IB協會(InfiniBand TradeAssociation,IBTA)最初由英特爾、微軟、SUN公司、IBM、康柏以及惠普公司主導成立。1999年5月,Mellanox由幾名從英特爾公司和伽利略技術公司離職的員工,在以色列創立,並於2001年推出了自己首款IB的產品。2002年,原IB陣營的巨頭英特爾和微軟結束。2010年,Mellanox和Voltaire公司合並,IB主要供應商只剩下Mellanox和QLogic。2012年,英特爾以1.25億美元的價格收購了QLogic的IB網路業務重回IB陣營,但不久又以1.4億美元的價格從Cray手中收購了「Gemini」XT和「Aries」XC超級計算互連業務,後基於IB和Aries打造出了新的Omni-Path互聯技術。2013年,Mellanox相繼收購了矽光子技術公司Kotura和並列光互連芯片廠商IPtronics,進一步完善了自身產業布局。2015年,Mellanox在全球InfiniBand市場上的占有率達到80%。2019年,輝達(Nvidia)公司擊敗對手英特爾和微軟,以69億美元的價格成功收購了Mellanox。
我們以輝達最新一代GB200產品為例:
1、機櫃內部
單個rack內部包括18個Compute tray(上10下8)和9個Switch tray,機櫃內Computetray和Switch tray之間透過Copper Cable Cartridge相連。透過液冷冷卻體系,相較H100的風冷基礎設施,在相同的功耗下可以實作25倍的效能。
單個Compute tray包括2顆GB200 Grace Blackwell Superchip、4顆Connectx- 800G Infiniband Supernic及1顆Bluefield-3 DPU。
1)GB200 Grace Blackwell Superchip包含兩顆Blackwell GPU和一顆Grace CPU。其中,單顆Blackwell GPU架構尺寸是上一代Hopper GPU的兩倍,但AI效能 (FP4)是Hopper的5倍(單顆Blackwell GPU AI效能(FP8)約為20petaFLOPS,8X24GB的HBM3e,8TB/s的記憶體頻寬),有18個NVlink埠連線18顆NVlink switch chip,實作1.8TB/s雙向連線速度。
2)Connectx-800GInfiniband Supernic可以實作端到端800Gb/s的網路連線和效能隔離,專為高效管理多租戶生成式AI雲而設計,透過PCle 6.0提供800Gb/s的數據吞吐量。ConnectX-8 Supernic支持單埠OSFP 224和雙埠QSFP112連結器,支持NVIDIA Socket Direct 16通道輔助卡擴充套件。
3)Bluefield-3 DPU可以透過400Gb/s乙太網路或NDR 400Gb/s InfiniBand網路連線,以實作解除安裝、加速和隔離軟體定義的網路、儲存、安全和管理功能,從而顯著提高數據中心的效能、效率和安全性。
單個Switch tray包括2顆NVlink Switch芯片,單顆Switch芯片單顆芯片支持4 介面、單介面1.8TB/s的傳輸速率。
每個Switch tray盤可提供144個NVlink埠(100GB),14.4TB/s的總頻寬。9個Switchtray盤,可以提供9*144=1296個埠,完全連線72個Blackwell GPU上單顆18個,共72*18=1296個NVlink埠。
機櫃內連線方面,Compute tray和Switch tray之間透過五代NVlink相連,五代NVlink雙向頻寬為1.8 TB/s,是上一代的2倍,是PCle Gen5頻寬的14倍以上。
1.8TB/s的GPU-to-GPU間通訊,使得AI及高效能計算中GPU的擴充套件成為可能。Computetray中Superchip內部GPU及CPU間透過NVlink Chip-to-Chip連線(雙向頻寬900GB/s)。
2、機櫃之間
GPU=72在現有硬體配置下,單台機櫃內部透過NVlink即可實作L1層switch tray連線:
1)銅纜為GB200機櫃內首推方案。雖然GB200透過充分提升單芯片的算力密度、套用散熱效率更高的液冷方式,實作了在更小的空間內部署更多的GPU卡,使 銅纜連線成為機櫃內連線更具價效比的方案。但基於高速率長距離的傳輸損耗問題,未來叠代節奏與套用的持續性仍有待觀察。
GPU>72在現有硬體配置下,單層網路已無法滿足要求,需升級至更高層數網路結構。有單一NVlink、IB組網:
1)當所需連線的GPU數量大於72小於576時,在NVlink單一組網的方案中,可以使用架構為全NVlink連線的集群,GPU和光模組的數量比例為1:9。單機櫃的NVL72方案中的交換機已沒有額外的介面進行更大規模的互聯,根據推薦,可延伸集群多采用雙機櫃NVL72方案,單個機櫃有18個Compute Tray、9個Switch Tray。與單機櫃版本不同的是,雙機櫃版本Computer Tray僅一顆GraceBlackwellSuperchip (2 Blackwell GPU+1 Grace CPU)。Switch Tray內容單雙機櫃版本保持一致。
36顆Blackwell GPU充分連線18顆NVswitch chip共有36*18=648個ports,構成576集群的為雙排的16個機櫃,則累計需連線的埠為648*16=10368個ports,單口單向速率為50GB/s(雙向速率100GB/s)。假設L1至L2層網路透過光模組且采用1.6T光模組(200GB/s),則共需要10368*50/200*2=5184個1.6T光模組,GPU:1.6T光模組=576:5184=1:9。
2)當所需連結的GPU數量大於72時,在IB組網的方案中,若使用最新一代NVIDIAQuantum-X800 Q3400交換機互聯,根據埠數的不同,同樣網路層數所能承載的最多GPU數量不同,GPU和光模組的比例略有區別。相較NVIDIAQuantum-2 QM9700僅有的64個400G的ports而言,最新一代NVIDIAQuantum-X800 Q3400交換機有144個800G的ports,最多可以實作 (144^2)/2=10368張GPU的互聯。
根據SemiAnalysis的預測,2層網路架構的1.6t光模組/GPU的比例在2.5左右,3層網路架構的1.6t光模組 /GPU的比例在3.5左右。
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。