當前位置: 妍妍網 > 碼農

智算中心改造:網路成大模型訓練瓶頸,節點內外多架構並存

2024-05-12碼農

本文來自「 」。AI大模型訓練和推理拉動智慧算力需求快速增長。

a)模型叠代和數量增長拉動AI算力需求增長:從單個模型來看,模型能力持續提升依賴於更大的訓練數據量和模型參數量,對應更高的算力需求;從模型的數量來看,模型種類多樣化(文生圖、文生視訊)和各廠商自主模型的研發,均推動算力需求的增長。

b)未來AI套用爆發,推理側算力需求快速增長:各廠商基於AI大模型開發各類AI套用,隨著AI套用使用者數量爆發,對應推理側算力需求快速增長。

智算中心從集群走向超級池化。智算中心是以GPU、AI加速卡等智慧算力為核心,集約化建設的新型數據中心;隨著大模型普遍進入萬億規模,算力、視訊記憶體、互聯需求再次升級,高速互聯的百卡「超級伺服器」可能成為新的裝置形態,智算中心將走向超級池化階段,對裝置形態、互聯方案、儲存、平台、散熱等維度提出新的要求。

網路互聯:節點內外多方案並存。

1)節點內:私有方案以輝達NVLink為代表,NVLink已經發展至第五代產品,同時支持576個GPU之間的無縫高速通訊;開放技術方案以OAM和UBB為主,OCP組織定義了業內通用的AI扣卡模組形態(OAM)-基板拓撲結構(UBB)設計規範。

2)節點間:主要方案為Infiniband和RoCEv2;Infiniband網路主要包括InfiniBand網卡、InfiniBand交換機、Subnet Management(SM)、連線件組成;RoCEv2網路是一個純分布式的網路,由支持RoCEv2的網卡和交換機、連線件、流控機制組成。InfiniBand在網路效能、集群規模、運維等方面具備顯著優勢。

相關閱讀:

轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

推薦閱讀

更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

溫馨提示:

掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情