本文來自「 」,文章「 」。
傳統雲端運算及相應演算法產生的數據 流基本為占用記憶體小、波動範圍小的流量,因此雖然網路為非全域路由,按照既定策略 為流量分配路徑也不會過多出現擁塞; AI 計算產生的數據流中大象流( Elephant Flow ) 顯著增加,對於少數被分配較多大象流的路徑,其傳輸時間將顯著高於大部份路徑,這就會產生「長尾效應」,大部份路徑傳輸完成後閑置等待少數路徑完成傳輸,系統利用率因此打折扣。
不同計算行程間數據共接收端,容易出現「受害者流量」。 AI 推理集群必然會出現 多個負載處理多個使用者需求或多條並行請求的情況,不同負載由不同埠輸出數據,傳 輸路徑上有共用的葉、脊交換機,則共接收端的「多傳一」( Many-To-One )現象容易出 現網路背壓、擁塞傳播甚至丟包。
例如下圖中,負載 A 由網卡 1 、 2 、 3 輸出的路徑與負載 B 由網卡 4 輸出的路徑共 用交換機 a ,且路徑 3 與路徑 4 共用交換機 b ,在常規網路架構下,路徑 1 、 2 、 3 均按最大頻寬連線交換機 a ,交換機 a 處出現擁塞,網路背壓導致連線交換機 b 的路徑也出現擁塞,路徑 4 數據流的穩態頻寬受到影響,成為「受害者流量」( Victim Flow )。
RDMA 網路如何解決潛在問題? 「自適應路由」基於網卡及交換機,可解決「大象流」帶來的長尾效應。
1 ) 交換 機根據各埠數據輸出佇列狀態判斷該埠的負荷情況,並將新數據路由至當前負荷最 小的埠 / 路徑,這樣可有效實作各埠負載均衡;
2 ) 重新路由後的數據一般會按照與原序列不同的順序到達網卡,網卡利用 DDP 協定(資料包中的 DDP 字首包含辨識數據原儲存位置的資訊)將接收到的數據按照原順序存放。針對 AI 計算中顯著增加的「大 象流」,自適應路由透過動態監控各埠傳輸負荷並按此分配路徑,均衡負載,解決長尾問題。
交換機擁塞控制演算法 + 緩存池化實作效能隔離。 1 ) 各節點交換機即時監控傳輸速率 及擁塞程度,由交換機芯片接收處理該節點及相鄰節點的檢測數據,並基於擁塞控制算 法調節各相關交換機的傳輸速率; 2 ) 交換機將物理緩存池化,根據不同埠的接收、傳 輸速率分配緩存。
芯片支持容量提升,增加 RoCE 配套功能。 交換機芯片支持的容量叠代提升是必然趨勢,博通 Tomahawk 5 總容量達 51.2T ,支持 64 個埠單口頻寬達 800G ,相比上代翻倍,輝達 Spectrum-X800 交換機總容量 51.2T 、埠 64 個,分別是上一代的 4 倍和兩倍;同時前一章中提到 RoCE 實作的自適應路由、擁塞控制及緩存池化分配等功能均需 要交換機、網卡軟硬體支持。
RoCE 帶來更多軟體客制化可能,白盒交換機有望進一步滲透。 白盒交換機采用開 放式網路交換架構,將商用硬體與開源軟體作業系統相結合,以實作更靈活的網路配置 和管理。 RoCE 網路中的硬體升級以實作自適應路由、擁塞控制等功能,同時雲廠商亦 可根據自身硬體特性、需求和痛點自行開發相應功能的演算法及軟體,白盒交換機在軟硬體上的發揮空間進一步擴充套件。
相關閱讀:
轉載申明:轉載 本號文章請 註明作者 和 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。
推薦閱讀
更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。
全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 」 和「 」 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。
溫馨提示:
掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 「 架構師技術全店資料打包匯總(全) 」 電子書資料詳情 。