在深入探究 AI 智算網路的領域時,我們發現市場中主要存在兩大主流架構:InfiniBand 和 RoCEv2。
更多內容參考: 「 」、「 」、「 」、「 」。
這兩種網路架構在效能、成本、通用性等多個關鍵維度上展現出各自的優勢,相互競爭。我們將細致分析這兩種架構的技術特性、它們在 AI 智算網路中的套用場景,以及各自的優勢和局限性。
本文旨在評估InfiniBand 和 RoCEv2 在AI 智算網路中的潛在套用價值和未來的發展方向,以期為行業提供深刻的洞察和專業的指導。
1 InfiniBand 網路架構
InfiniBand 網路主要透過子網路管理器(Subnet Manager,簡稱 SM)來進行集中管理,SM通常部 署在一台接入子網路的伺服器上,充當網路的中樞控制器。子網路中可能存在多個配置為SM 的裝置,但僅有一個被指定為主 SM,負責透過管理資料包(MAD)的內部下發和上傳來管理所有交換機和網卡。每個網卡埠和交換芯片都透過由 SM 分配的唯一身份標識(Local ID,LID)進行辨識,確保網路內裝置的唯一性和準確性。SM 的核心職責包括維護網路的路由資訊和計算更新交換芯片的路由表。網卡內部的 SM Agent(SMA)功能使得網卡能夠獨立處理 SM 下發的報文,無需所在伺服器的幹預,而提高了網路的自動化和效率。
1.1 InfiniBand 網路流控機制
InfiniBand 網路基於信用令牌(credit)機制,在每條鏈路都配備了一個偏好設定緩沖區。發送端僅在 確認接收端有足夠的緩沖區後,才會啟動數據發送,並且發送的數據量都不可超過接收端當前可用的偏好設定緩沖區的最大容量。當接收端接收完報文,會釋放緩沖區,並向發送端通報當前可用的偏好設定緩沖區大小,從而維持了網路的流暢執行和數據傳輸的連續性。
1.2 InfiniBand 網路特點:鏈路級流控與自適應路由
InfiniBand 網路依靠鏈路級的流控機制,防止發送過量數據,從而避免了緩沖區溢位或是數據丟 包的問題。同時 InfiniBand 網路的自適應路由技術可根據每個封包的具體情況進行動態路由選擇,在超大規模的網路環境中實作了網路資源的即時最佳化和最佳負載均衡利用。
2 RoCEv2 網路架構
RoCE(RDMA over Converged Ethernet)協定是一種能在乙太網路上進行 RDMA(Remote Direct Memory Access 遠端記憶體直接存取)的集群網路通訊協定。該協定有兩個主要版本:RoCEv1 和RoCEv2。RoCEv1 作為鏈路層協定,要求通訊雙方位於同一二層網路內。而RoCEv2 則為網路層協定,它采用乙太網路網路層和 UDP 傳輸層,取代了 InfiniBand 的網路層,從而提供了更優的可延伸性。與 InfiniBand 網路的集中管理方式不同,RoCEv2 采用的是純分布式架構,通常由兩層構成,在擴充套件性和部署靈活性方面具有顯著優勢。
2.1 RoCEv2 網路流控機制
優先流控制(PFC)是一種逐跳流控策略,透過合理配置水位標記來充分利用交換機的緩存,以實作乙太網路 絡中的無丟包傳輸。當下遊交換機埠的緩存過載時,該交換機就會向上遊裝置請求停止傳輸。已發送的數據則會儲存在下遊交換機的緩存中,等到緩存恢復正常,埠將會請求恢復封包的發送,從而維持網路的流暢執行。
顯式擁塞通知(ECN)定義了一種基於 IP 層和傳輸層的流量控制和端到端擁塞通知機制。透過在交換機上 向伺服器端傳遞特定擁塞資訊,然後伺服器端再發送至客戶端通知源端降速從而實作擁塞控制的目的。
數據中心量化擁塞通知(DCQCN)是顯式擁塞通知(ECN)和優先流控制(PFC)兩種機制的結合,旨 在支持端到端的無失真乙太網路通訊。其核心理念是在網路擁塞發生時,優先使用ECN 來通知發送端降低傳輸速率,防止 PFC 的不必要啟用,同時也要避免擁塞嚴重導致緩沖區溢位的情況。透過這種精細的流量控制,DCQCN 能夠在保持網路高效執行的同時,避免因擁塞造成的數據遺失。
2.2 RoCEv2 網路特點:強大相容性與成本最佳化
RoCE 網路利用 RDMA 技術實作了高效的數據傳輸,不必占用遠端伺服器的 CPU 周期,從而充分 利用頻寬並增強了網路的可伸縮性。這種方法顯著降低了網路延遲並提升了吞吐量,整體上提高了網路效能。RoCE 方案的另一個顯著優勢是它能夠無縫地融入現有的乙太網路基礎設施,這意味著企業無需額外投資於新裝置或進行裝置更換,就能實作效能的飛躍。這種成本效益高的網路升級方式對於降低企業的資本支出至關重要,使得 RoCE 成為提升智算中心網路效能的優選方案。
3 InfiniBand 與 RoCEv2 的技術差異
市場中對網路的多樣化需求促成了 InfiniBand 和 RoCEv2 兩種網路架構的共同發展。InfiniBand 網 絡憑借其高級技術,如高效的轉發效能、快速的故障恢復時間和增強的擴充套件性,以及運維效率,在套用層業務效能上展現出顯著優勢,特別是在大規模場景下,能夠提供卓越的網路吞吐效能。
而RoCEv2網路則以其強大的通用性和較低的成本受到青睞,不僅適用於構建高效能RDMA網路, 還能無縫相容現有的乙太網路基礎設施,這使得 RoCEv2 在廣泛性和適用性方面具有明顯優勢,能夠滿足不同規模和需求的網路套用。這兩種架構各自的特性和優勢,為 AI 智算中心的網路設計提供了豐富的選擇,以滿足不同使用者的具體需求。
請參考「 」,「 」、「 」、「 」、「 」、「 」、「 」、「 」等等。
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。