輝達InfiniBand：面向AIGC的技術優勢分析

2024-05-05碼農

在AIGC的訓練場景，基本上不差錢的客戶都會首選 InfiniBand ，作為跨AI伺服器節點的網路組網方案，今天我們就來講一講 InfiniBand到底有那些針對AIGC場景的技術最佳化：

相關閱讀：

、、

集體計算能力（Collective Computational Power）

集體通訊演算法有助於在人工智慧模型訓練期間確保分布式節點之間的高效和協調通訊。它們允許有效地訓練大規模模型，提高訓練速度，減少通訊開銷，並使分布式訓練能夠利用多個節點的集體計算能力。這將加速模型收斂並提高效能。

輝達為深度學習框架開發了集體通訊庫，以利用多個節點內和跨多個節點的GPU。NVIDIA Collective Communication Library（ NCCL ）就是這種庫的一個例子，它實作了用於全部減少、全部收集、減少、廣播、減少分散以及任何基於發送/接收的通訊模式的通訊演算法。它經過最佳化，可在任何使用PCIe和/或 NVLink 的平台上實作高頻寬，並可使用NVSwitch、InfiniBand或乙太網路跨多台機器擴充套件。

在網計算（In-Network Computing ）

在網計算這一特性支持網路中基於硬體的計算引擎大規模解除安裝復雜操作。網路內計算在NVIDIA Quantum InfiniBand交換機上作為NVIDIA可延伸分層聚合和縮減協定（SHARP）實作。

作為一種網內基於樹的聚合機制，SHARP支持多個同時進行的集合操作。啟用SHARP後，交換機將被辨識為聚合節點，並將執行此類數據縮減。NCCL在跨許多多GPU節點執行通訊演算法時利用了這一功能。由於執行操作時只發送一次數據，因此有效地將數據縮減的頻寬增加了一倍，在使用SHARP的端到端NVIDIAQuantum-2400Gb/sInfiniBand網路上執行的NCCL效能將比沒有SHARP的800Gb/s網路更好。

自適應路由（Adaptive Routing ）

nfiniBand作為一個軟體定義網路（SDN）執行，並由一個名為子網路管理器（SM）的軟體管理實用程式管理。該集中式實體配置交換機以基於網路條件選擇路由。交換機ASIC（從一組輸出埠中）選擇負載最小的輸出埠，該埠將在整個網路中實作最佳效能。不同傳出交換機埠之間的選擇基於分級機制，該機制考慮了出口埠佇列深度和路徑優先級，其中最短路徑具有更高的優先級。

InfiniBand的自適應路由透過將流量分布在所有網路鏈路上並提高鏈路利用率和平衡，從而最佳化鏈路頻寬，從而最大限度地提高整體效能。重要的是要知道自適應路由會導致網路封包無序地到達目的地。但是，作為一種端到端解決方案，InfiniBand本身包含管理無序封包到達的硬體功能。

擁塞控制（ Congestion Control ）

InfiniBand支持全面且可延伸的服務品質（QoS）功能，該功能使用基於信用的流量控制機制來調節發送方和接收方之間的數據流，從而保證確定的頻寬和延遲。

InfiniBand實施擁塞控制體系結構（CCA），這是一個管理擁塞事件的三階段過程。當交換機檢測到擁塞時，它會開啟一個稱為前向顯式擁塞通知（FECN）的位（在封包中）。當封包到達目的介面卡時，它會使用具有不同位集的封包來響應源介面卡，稱為反向顯式擁塞通知（BECN）。當發送或源介面卡收到BECN時，它會透過抑制封包註入來做出響應。

直通轉發，降低轉發時延

乙太網路采用兩種數據處理模式: 儲存轉發交換和直通轉發，乙太網路（包括ROCE無失真乙太網路），預設是采用儲存轉發模式，交換機需要先將整個封包完全接收並儲存在緩存中，檢查封包的目的地址和完整性後，再進行轉發。這種方式會導致一定的延遲，特別是在處理大量封包時。

而Cut-through（直通轉發模式）技術，當交換機接收到封包時，它只需要讀取封包的頭部資訊，確定目標埠，然後立即開始轉發封包。這種技術可以顯著減少封包在交換機中的停留時間，從而降低了傳輸延遲。

AI場景網路轉發延時非常關鍵，直通轉發肯定是首選，InfiniBand交換機使用直通轉發模式（Cut-Through），讓二層報文的轉發處理變得非常簡單。只需要一個16位元的LID（這是由子網路管理器直接給的），就能快速找到轉發的路徑。這樣一來，轉發的延遲就縮短到了100納秒以下。

「淺」緩存交換架構

InfiniBand交換機在設計上是「淺」緩沖交換機。乙太網路交換機可以大致分為「深」或「淺」緩沖交換機。深度緩沖交換機的緩沖區大小以千兆字節（GB）為單位，而淺緩沖交換機（如Spectrum乙太網路交換機）的緩沖區大小以兆字節（MB）為單位。深度緩沖交換機最初是為不同的目的而設計的，例如路由和廣域網路；因此，與傳統的淺緩沖乙太網路交換機相比，它們具有非常不同的體系結構。深度緩沖交換機系統通常采用模組化設計，其特點是裝有路線卡的大型電腦箱交換機。

雖然深度緩沖交換機功能豐富，支持數據中心互聯（DCI）和電信網路所需的規模，但它們並未針對人工智慧網路進行最佳化。深緩沖交換機可容納額外的數據流量，對微突發不太敏感，但更大的數據容量會導致更高的尾部延遲，從而導致平均延遲增加和高抖動。這直接影響了依賴於最壞情況延遲的人工智慧工作負載，導致更長的作業完成時間和增加的培訓時間。

網路鏈路故障恢復能力

InfiniBand交換機配備了獨特的自我修復功能。由於這種自我修復的自主性，在發生鏈路故障的情況下，可以快速糾正通訊，從而避免昂貴的重新傳輸或絕對故障。

與通常在乙太網路上執行的具有同質流量模式的傳統應用程式工作負載不同，人工智慧生成的異構流量具有突發性並且對網路故障高度敏感。例如，當從葉子到主幹的鏈路斷開時，這會影響多個機架中的多個GPU節點，並顯著降低所有對所有的效能。流行的基於乙太網路的冗余措施（如EVPN多宿主或MLAG）無法解決效能問題。

來源：