智算中心改造：網路成大模型訓練瓶頸，節點內外多架構並存

2024-05-12碼農

本文來自「」。AI大模型訓練和推理拉動智慧算力需求快速增長。

a）模型叠代和數量增長拉動AI算力需求增長：從單個模型來看，模型能力持續提升依賴於更大的訓練數據量和模型參數量，對應更高的算力需求；從模型的數量來看，模型種類多樣化（文生圖、文生視訊）和各廠商自主模型的研發，均推動算力需求的增長。

b）未來AI套用爆發，推理側算力需求快速增長：各廠商基於AI大模型開發各類AI套用，隨著AI套用使用者數量爆發，對應推理側算力需求快速增長。

智算中心從集群走向超級池化。智算中心是以GPU、AI加速卡等智慧算力為核心，集約化建設的新型數據中心；隨著大模型普遍進入萬億規模，算力、視訊記憶體、互聯需求再次升級，高速互聯的百卡「超級伺服器」可能成為新的裝置形態，智算中心將走向超級池化階段，對裝置形態、互聯方案、儲存、平台、散熱等維度提出新的要求。

網路互聯：節點內外多方案並存。

1）節點內：私有方案以輝達NVLink為代表，NVLink已經發展至第五代產品，同時支持576個GPU之間的無縫高速通訊；開放技術方案以OAM和UBB為主，OCP組織定義了業內通用的AI扣卡模組形態（OAM）-基板拓撲結構（UBB）設計規範。

2）節點間：主要方案為Infiniband和RoCEv2；Infiniband網路主要包括InfiniBand網卡、InfiniBand交換機、Subnet Management（SM）、連線件組成；RoCEv2網路是一個純分布式的網路，由支持RoCEv2的網卡和交換機、連線件、流控機制組成。InfiniBand在網路效能、集群規模、運維等方面具備顯著優勢。

相關閱讀：

轉載申明：轉載 本號文章請 註明作者 和來源，本號釋出文章若存在版權等問題，請留言聯系處理，謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新，現下單「 架構師技術全店資料打包匯總(全) 」一起發送「」和「」 pdf及ppt版本，後續可享全店內容更新「免費」贈閱，價格僅收 249 元(原總價 399 元)。

溫馨提示：

掃描 二維碼 關註公眾號，點選 閱讀原文 連結獲取「 架構師技術全店資料打包匯總(全) 」電子書資料詳情。