當前位置: 妍妍網 > 碼農

InfiniBand網路、HDR和IB在超算中的套用實踐

2024-04-19碼農

InfiniBand(IB)是由InfiniBand貿易協會(IBTA)建立的先進電腦網路通訊標準。它在高效能計算(HPC)中的廣泛采用歸功於它能夠為網路傳輸提供卓越的吞吐量、頻寬和低延遲。

InfiniBand是計算系統內部和外部的關鍵數據連線。無論是透過直接鏈路還是透過網路交換機進行互連,InfiniBand都有助於實作伺服器到儲存和儲存到儲存數據傳輸的高效能網路。InfiniBand網路可延伸性允許透過交換網路進行水平擴充套件,以滿足多樣化的網路需求。隨著科學計算、人工智慧(AI)和雲數據中心的快速發展,InfiniBand在端到端高效能網路的HPC超級計算套用中越來越受到青睞。

相關連結:

  • InfiniBand在超級電腦和HPC數據中心中的普及

    2015年6月,InfiniBand在全球最強大的超級電腦500強名單中占據了驚人的51.8%,同比增長了15.8%。

    在2022年6月的Top500榜單中,InfiniBand網路再次占據了超級電腦互連裝置的領先地位。與之前的榜單相比,InfiniBand網路展現了在數量和效能方面的優勢。主要趨勢包括:

  • 基於InfiniBand的超級電腦以189個系統數量遙遙領先。

  • 基於InfiniBand的超級電腦以59台裝置數量在前100個系統中占據主導地位。

  • 輝達(NVIDIA)GPU和網路產品,尤其是邁絡思(Mellanox)HDR Quantum QM87xx交換機和BlueField DPU,在超過三分之二的超級電腦中占據了主導互連的地位。

  • 除了傳統的HPC套用之外,InfiniBand網路還廣泛用於企業級數據中心和公有雲。例如,領先的企業超級電腦輝達(NVIDIA)Selene和Microsoft的Azure公有雲利用InfiniBand網路提供卓越的業務效能。

    在2023年11月的最新Top500榜單中,InfiniBand保持著領先位置,突顯了其持續增長的趨勢。InfiniBand在Top500排行榜中備受關註,主要是因為它具有卓越的效能優勢。

    InfiniBand網路的優勢

    InfiniBand技術被認為是面向未來的高效能計算(HPC)標準,在超級電腦、儲存甚至LAN網路的HPC連線方面享有很高的聲譽。InfiniBand技術擁有眾多優勢,包括簡化管理、高頻寬、完全CPU解除安裝、超低延遲、集群可延伸性和靈活性、服務品質(QoS)、SHARP支持等。

    輕松的網路管理

    InfiniBand代表了專為軟體定義網路(SDN)打造的開創性網路架構,並由子網路管理器進行監督。子網路管理器負責配置本地子網路,確保網路無縫執行。為了管理流量,所有通道介面卡和交換機都必須實作與子網路管理器協作的子網路管理代理(SMA)。在建立或切斷連結時,每個子網路至少需要一個子網路管理器進行初始設定和重新配置。仲裁機制用於指定主子網路管理器,其他子網路管理器在備用模式下執行。在備用模式下,每個子網路管理器都會保留備份拓撲資訊並驗證子網路的執行狀態。如果主子網路管理器發生故障,備用子網路管理器將接管控制權,從而保證子網路管理不間斷。

    更高的頻寬

    自從InfiniBand問世以來,其網路數據速率一直超過乙太網路,主要是因為它在高效能計算中的伺服器互連中得到了廣泛套用,滿足了對更高頻寬的需求。在2014年早期,流行的InfiniBand速率是40Gb/s QDR和56Gb/s FDR。目前,更高的InfiniBand速率,例如100Gb/s EDR和200Gb/s HDR,已被全球眾多超級電腦廣泛采用。最新的OpenAI工具ChatGPT的推出促使企業考慮在其高效能計算(HPC)系統中部署具有400Gb/s NDR數據速率的先進InfiniBand網路產品,包括InfiniBand NDR交換機和光纜。

    每種InfiniBand速率型別的縮寫如下:

  • SDR-單數據速率,8Gbps。

  • DDR-雙倍數據速率,10Gbps/16Gbps。

  • QDR-四倍數據速率,40Gbps/32Gbps。

  • FDR-十四倍數據率,56Gbps。

  • EDR-增強型數據速率,100Gbps。

  • HDR-高動態範圍,200Gbps。

  • NDR-下一代數據速率,400Gbps。

  • XDR-極致數據速率,800Gbps。

  • 高效的CPU解除安裝

    CPU解除安裝是增強計算效能的一項關鍵技術,而InfiniBand網路架構透過以下方式以最少的CPU資源促進數據傳輸:

  • 整個傳輸層協定棧的硬體解除安裝。

  • 內核繞行,零拷貝。

  • RDMA(遠端直接記憶體存取),一種將數據從一台伺服器的記憶體直接寫入另一台伺服器的記憶體的過程,無需CPU參與。

  • 利用GPUDirect技術是另一種選擇,它允許直接存取GPU記憶體中的數據,並加速數據從GPU記憶體傳輸到其他節點。此功能可提高人工智慧(AI)、深度學習訓練、機器學習等計算應用程式的效能。

    低延遲

    InfiniBand和乙太網路之間的延遲對比可以分為兩個主要組成部份。首先,在交換機層面上,乙太網路交換機在網路傳輸模型中作為第2層裝置執行,通常采用MAC表尋找尋址和儲存轉發機制(某些產品可能采用InfiniBand的直通技術)。乙太網路交換機中,IP、MPLS、QinQ和其他處理等復雜服務會導致處理持續時間延長,延遲測量結果通常以微秒為單位(直通支持可能超過200ns)。相比之下,InfiniBand交換機簡化了第2層處理,僅依靠16位元LID轉發路徑資訊。此外,采用直通技術可將轉發延遲顯著降低到100ns以下,已經超過乙太網路交換機的速率。

    如前所述,在網卡(NIC)層面,RDMA技術消除了網卡遍歷CPU進行訊息轉發的需要。這種加速盡可能地減少了封裝和解封裝期間訊息處理的延遲。通常,InfiniBand網卡的發送和接收延遲(寫入、發送)為600ns,而使用乙太網路的基於乙太網路TCP UDP應用程式的發送和接收延遲通常徘徊在10us左右。這導致InfiniBand和乙太網路之間的延遲差距超過10倍。

    可延伸性和靈活性

    InfiniBand網路的一個重要優勢在於其能夠在單個子網路中部署多達48,000個節點,形成一個龐大的第二層網路。此外,InfiniBand網路避開了ARP等廣播機制,從而避免了廣播風暴和相關的額外頻寬浪費。多個InfiniBand子網路的連線可透過路由器和交換機實作,展示了該技術在支持各種網路拓撲方面的多功能性。

    對於較小規模的情況,建議使用2層胖樹拓撲結構,而對於較大規模的情況,可以選擇3層胖樹網路拓撲結構。在特定規模之上,可以采用經濟高效的Dragonfly拓撲結構來進一步提升可延伸性。

    服務品質(QoS)支持

    在管理InfiniBand網路時,如果各種應用程式共存於同一子網路上,且具有不同的優先級要求,那麽提供服務品質(QoS)就成為一個關鍵因素。QoS表示為不同的應用程式、使用者或數據流提供不同優先級服務的能力。在InfiniBand環境中,可以將高優先級應用程式分配給特定的埠佇列,從而確保這些佇列中的訊息得到優先處理。

    InfiniBand透過實施虛擬通道(VL)實作QoS。虛擬通道是共享公共物理鏈路的離散邏輯通訊鏈路。每個VL能夠支持多達15個標準虛擬通道以及一個指定為VL15的管理通道。這種方法可以根據優先級對流量進行有效隔離,從而允許在InfiniBand網路內優先傳輸高優先級應用程式。

    穩定性和彈性

    在理想情況下,網路執行穩定且沒有故障。然而,現實情況中長期執行的網路偶爾會出現故障。為了解決這些挑戰並確保快速恢復,InfiniBand采用了一種稱為自我修復網路的機制,這是一種整合到InfiniBand交換機中的硬體功能。

    NVIDIA Mellanox InfiniBand解決方案包括InfiniBand交換機、網卡和邁絡思(Mellanox)線纜等硬體元件,利用自我修復網路實作從鏈路故障中快速恢復。這種基於硬體的功能能夠在驚人的1ms內恢復鏈路故障,比正常恢復時間快了5000倍。

    最佳化的負載均衡

    提高網路利用率是高效能數據中心的一項關鍵要求。在InfiniBand網路中,一種有效的實作方法是負載均衡。

    負載均衡是一種路由策略,可以在多個可用埠之間分配流量。其中自適應路由是一個關鍵特性,可以確保流量在交換機埠之間均勻分布。這個特性在交換機上得到硬體支持,並由自適應路由管理器進行管理。

    當自適應路由處於活動狀態時,交換機上的佇列管理器將監控所有組出口埠上的流量,均衡每個佇列上的負載,並將流量引導至未充分利用的埠。自適應路由可動態平衡負載,防止網路擁塞並最佳化網路頻寬利用率。

    網路計算技術-SHARP

    InfiniBand交換機還具有SHARP網路計算技術,該技術代表可延伸的分層聚合和縮減協定。SHARP是整合到交換機硬體中的軟體,是一個集中管理的軟體包。

    透過將聚合通訊任務從CPU和GPU解除安裝到交換機,SHARP可以最佳化這些通訊。它可以防止節點之間的冗余數據傳輸,從而減少必須遍歷網路的數據量。因此,SHARP顯著提高了加速計算的效能,尤其是在AI和機器學習等MPI套用中。

    多樣化的網路拓撲

    InfiniBand支持各種網路拓撲,如胖樹、Torus、Dragonfly+、Hypercube和HyperX,滿足網路擴充套件、降低總擁有成本(TCO)、最小化延遲和延長傳輸距離等不同需求。

    InfiniBand利用其無與倫比的技術優勢,顯著簡化了高效能網路架構,減輕了多級架構階層帶來的延遲。此功能為無縫升級關鍵計算節點的存取頻寬提供了強大的支持。InfiniBand網路因其高頻寬、低延遲以及與乙太網路的相容性,越來越多地在各種場景中得到套用。

    InfiniBand HDR產品解決方案簡介

    隨著客戶端需求的不斷增長,100Gb/s EDR正逐漸結束市場。目前NDR的數據速率被認為過高,而HDR憑借其提供HDR100(100G)和HDR200(200G)的靈活性獲得廣泛采用。

    InfiniBand HDR交換機

    輝達(NVIDIA)提供兩種型別的InfiniBand HDR交換機。第一種是HDR CS8500模組化機箱交換機,這是一款29U交換機,提供多達800個HDR 200Gb/s埠。每個200G埠支持拆分為2X100G,最多支持1600個HDR100(100Gb/s)埠。第二種是QM87xx系列固定交換機,1U面板整合了40個200G QSFP56埠。這些埠可以拆分為多達80個HDR 100G埠,以連線到100G HDR網卡。同時,每個埠還向後支持EDR速率以連線100G EDR網卡卡。需要註意的是,單個200G HDR埠只能降速到100G連線EDR網卡,不能拆分成2X100G連線兩個EDR網卡。

    200G HDR QM87xx交換機有兩種型號:MQM8700-HS2F和MQM8790-HS2F。這兩種型號之間的唯一區別在於管理方法。QM8700交換機具有支持帶外管理的管理埠,而QM8790交換機需要輝達(NVIDIA)UFMR平台進行管理。

    對於QM8700和QM8790,每種交換機都提供兩種氣流選項。其中,MQM8790-HS2F交換機具有P2C(電源到線纜)氣流,可透過風扇模組上的藍色標記來辨識。如果忘記了顏色標記,也可以透過將手放在開關的進氣口和出風口前面來確定氣流方向。MQM8790-HS2R交換機采用C2P(線纜到電源)氣流,風扇模組上有紅色標記。QM87xx系列交換機型號詳情如下:

    CQM8700和QM8790交換機通常用於兩種連線套用。一種與200G HDR網卡連線,從而實作使用200G到200GAOC/DAC線纜的直接連線。另一種常見的套用是連線100G HDR網卡,需要使用200G轉2X100G線纜將交換機的物理200G(4X50G)QSFP56埠拆分為兩個虛擬100G(2X50G)埠。拆分後,埠符號從x/y轉換為x/Y/z,其中「x/Y」表示拆分前埠的原始符號,「z」表示單鍊結埠的編號(1,2),每個子物理埠被視為一個單獨的埠。

    InfiniBand HDR網卡(NIC)

    與HDR交換機相比,HDR網卡(NIC)種類繁多。關於速率,有兩種選擇:HDR100和HDR。

    HDR100網卡支持100Gb/s的傳輸速率,兩個HDR100埠可以使用200G HDR轉2X100G HDR100線纜連線到HDR交換機。與100G EDR網卡相比,HDR100網卡的100G埠可以同時支持4X25G NRZ傳輸和2X50G PAM4傳輸。

    200G HDR網卡支持200G的傳輸速率,可以使用200G直連線纜直接連線到交換機。

    除了兩種介面數據速率外,每種速率的網卡都可以根據業務需求選擇單埠、雙埠和PCIe型別。常用的IB HDR網卡型號如下:

    HDR InfiniBand網路架構簡單明了,同時提供了多種硬體選項。對於100Gb/s速率,有100G EDR和100G HDR100解決方案。200Gb/s速率包括HDR和200G NDR200選項。各種套用中使用的交換機、網卡和附件存在顯著差異。InfiniBand高效能HDR和EDR交換機、智慧網卡、納多德(NADDOD)/邁絡思(Mellanox)/思科(Cisco)/惠普(HPE)光纜&高速線纜&光模組產品組合解決方案,為數據中心、高效能計算、邊緣計算、人工智慧等套用場景提供更具優勢和價值的光網路產品和綜合解決方案。這大大增強了客戶的業務加速能力,成本低且效能優異。

    InfiniBand與乙太網路、光纖通道和Omni-Path有什麽區別

    InfiniBand與乙太網路

  • 與眾不同的技術:InfiniBand和乙太網路是數據傳輸的關鍵通訊技術,每種技術都適用於不同的套用。

  • 歷史速率:InfiniBand的歷史數據傳輸速率從InfiniBand SDR 10Gb/s開始,超過了千兆乙太網路的初始速率。

  • 當前主導地位:InfiniBand已經發展成為主導地位,網路速率達到了100G EDR或200G HDR,並且正在朝著更快的速率發展,比如400G NDR和800G XDR。

  • 嚴格的延遲要求:InfiniBand遵守嚴格的延遲要求,接近零延遲。

  • 理想套用:InfiniBand在需要快速和精確數據處理的套用中表現出色,在超級計算中得到廣泛套用,適用於大容量數據分析、機器學習、深度學習訓練、推理、對話式AI、預測和預測等任務。

  • 乙太網路的作用:盡管速率相對較慢,乙太網路以其高可靠性而聞名,非常適合需要穩定可靠數據傳輸的區域網路套用。

  • 速率和可靠性的差異:這些技術之間的主要差異在於它們的速率和可靠性。在高效能計算網路中,InfiniBand優先用於需要快速數據傳輸的應用程式,而乙太網路的可靠性使其更適合在LAN網路中進行一致的數據傳輸。

  • InfiniBand與光纖通道

  • 儲存區域網路(SAN)中的光纖通道:光纖通道主要用於儲存區域網路(SAN),專門用於數據中心環境中的伺服器、儲存裝置或客戶端節點之間的高速數據傳輸。

  • 安全通道技術:光纖通道采用專用的安全通道技術,確保快速可靠的數據傳輸。

  • 儲存解決方案的多功能性:光纖通道是一種可靠且可延伸的技術,廣泛用於企業儲存解決方案。

  • 區分數據傳輸型別:InfiniBand和光纖通道之間的主要區別在於它們通常支持的數據傳輸型別。

  • 更好選擇:在區域網路環境中,乙太網路被用於客戶端和伺服器之間的連線,而光纖通道在儲存區域網路(SAN)中的儲存套用方面表現出色。與此同時,InfiniBand作為一種創新技術,用於連線CPU和記憶體元件,支持集群和與I/O控制器的連線。


  • InfiniBand與Omni-Path

  • 數據中心網路的演變:盡管輝達(NVIDIA)推出了InfiniBand 400G NDR解決方案,但一些使用者仍在繼續使用100G EDR解決方案。Omni-Path和InfiniBand都是以100Gb/s速率執行的高效能數據中心網路的常見選擇。

  • 網路結構區別:雖然這兩種技術提供相似的效能,但Omni-Path和InfiniBand的網路結構有很大不同。舉例來說,使用InfiniBand的400節點集群只需要15台輝達(NVIDIA)Quantum 8000系列交換機和特定線纜,而Omni-Path需要24台交換機和大量有源光纜。

  • InfiniBand EDR解決方案的優勢:與Omni-Path相比,InfiniBand EDR解決方案在裝置成本、營運和維護成本以及總體功耗方面具有顯著優勢。這使得InfiniBand成為更環保的選擇。

  • 來源:
    https://community.fs.com/cn/article/exploring-infiniband-network-hdr-and-significance-of-ib-applications-in-supercomputing.html

    下載連結:

    轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

    推薦閱讀

    更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

    全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

    溫馨提示:

    掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情