乙太網路：如何滿足AI計算互聯要求？

2024-07-06碼農

本文來自「」，文章「」。

傳統雲端運算及相應演算法產生的數據流基本為占用記憶體小、波動範圍小的流量，因此雖然網路為非全域路由，按照既定策略為流量分配路徑也不會過多出現擁塞； AI 計算產生的數據流中大象流（ Elephant Flow ）顯著增加，對於少數被分配較多大象流的路徑，其傳輸時間將顯著高於大部份路徑，這就會產生「長尾效應」，大部份路徑傳輸完成後閑置等待少數路徑完成傳輸，系統利用率因此打折扣。

不同計算行程間數據共接收端，容易出現「受害者流量」。 AI 推理集群必然會出現多個負載處理多個使用者需求或多條並行請求的情況，不同負載由不同埠輸出數據，傳輸路徑上有共用的葉、脊交換機，則共接收端的「多傳一」（ Many-To-One ）現象容易出現網路背壓、擁塞傳播甚至丟包。

例如下圖中，負載 A 由網卡 1 、 2 、 3 輸出的路徑與負載 B 由網卡 4 輸出的路徑共用交換機 a ，且路徑 3 與路徑 4 共用交換機 b ，在常規網路架構下，路徑 1 、 2 、 3 均按最大頻寬連線交換機 a ，交換機 a 處出現擁塞，網路背壓導致連線交換機 b 的路徑也出現擁塞，路徑 4 數據流的穩態頻寬受到影響，成為「受害者流量」（ Victim Flow ）。

RDMA 網路如何解決潛在問題？「自適應路由」基於網卡及交換機，可解決「大象流」帶來的長尾效應。

1 ）交換機根據各埠數據輸出佇列狀態判斷該埠的負荷情況，並將新數據路由至當前負荷最小的埠 / 路徑，這樣可有效實作各埠負載均衡；

2 ）重新路由後的數據一般會按照與原序列不同的順序到達網卡，網卡利用 DDP 協定（資料包中的 DDP 字首包含辨識數據原儲存位置的資訊）將接收到的數據按照原順序存放。針對 AI 計算中顯著增加的「大象流」，自適應路由透過動態監控各埠傳輸負荷並按此分配路徑，均衡負載，解決長尾問題。

交換機擁塞控制演算法 + 緩存池化實作效能隔離。 1 ）各節點交換機即時監控傳輸速率及擁塞程度，由交換機芯片接收處理該節點及相鄰節點的檢測數據，並基於擁塞控制算法調節各相關交換機的傳輸速率； 2 ）交換機將物理緩存池化，根據不同埠的接收、傳輸速率分配緩存。

芯片支持容量提升，增加 RoCE 配套功能。交換機芯片支持的容量叠代提升是必然趨勢，博通 Tomahawk 5 總容量達 51.2T ，支持 64 個埠單口頻寬達 800G ，相比上代翻倍，輝達 Spectrum-X800 交換機總容量 51.2T 、埠 64 個，分別是上一代的 4 倍和兩倍；同時前一章中提到 RoCE 實作的自適應路由、擁塞控制及緩存池化分配等功能均需要交換機、網卡軟硬體支持。

RoCE 帶來更多軟體客制化可能，白盒交換機有望進一步滲透。白盒交換機采用開放式網路交換架構，將商用硬體與開源軟體作業系統相結合，以實作更靈活的網路配置和管理。 RoCE 網路中的硬體升級以實作自適應路由、擁塞控制等功能，同時雲廠商亦可根據自身硬體特性、需求和痛點自行開發相應功能的演算法及軟體，白盒交換機在軟硬體上的發揮空間進一步擴充套件。

相關閱讀：

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 399 元)。

溫馨提示：

掃描 二維碼 關註公眾號，點選 閱讀原文 連結獲取「 架構師技術全店資料打包匯總(全) 」電子書資料詳情。