當前位置: 妍妍網 > 碼農

關於InfiniBand的技術問答

2024-05-06碼農

隨著大數據和人工智慧技術的進步,對高效能計算的需求不斷增長。為了滿足這一需求,輝達(NVIDIA)Quantum-2 InfiniBand平台為使用者提供了卓越的分布式計算效能,實作高速和低延遲的數據傳輸和處理能力。

相關連結:

  • 這些是關於IB技術的常見問答。

    問:CX7 NDR200 QSFP112埠是否與HDR/EDR線纜相容?

    答:是的,可以相容。

    問:如何將CX7 NDR網卡連線到Quantum-2 QM97XX系列交換機?

    答:CX7 NDR網卡使用輝達(NVIDIA)的400GBASE-SR4或400GBASE-DR4光模組,而QM97XX系列交換機使用800GBASE-SR8(相當於2x400GBASE-SR4)或800GBASE-DR8(相當於2x400GBASE-DR4)光模組。這些模組使用12芯多模通用極性APC端面網線進行連線。

    問:CX7網卡雙埠400G可以透過繫結實作800G的速率嗎?為什麽200G可以透過繫結實作400G?

    答:整體網路效能由如PCIe頻寬瓶頸、網卡處理能力和物理網路埠頻寬等因素決定。CX7網卡具有5.0 x16的PCIe規範,理論頻寬限制為512Gbps。由於PCIe 5.0 x16的最大頻寬限制,CX7網路介面卡上沒有可用於雙埠400G的硬體。

    問:如何連線分支線纜?

    答:為了實作出色效能,分支線纜(800G到2x400G)需要連線到兩台不同的伺服器上。這樣可以確保分支線纜不完全連線到乙太網路伺服器網卡上,因為GPU伺服器通常有多個網卡。

    問:在InfiniBand NDR情景中,一分二線纜是如何連線的?

    答:在InfiniBand NDR情景中,有兩種型別的分支線纜。第一種型別使用帶有分線的光模組(將400G分為2x200G),例如MMS4X00-NS400 + MFP7E20-NXXX + MMS4X00-NS400(降級為200G使用)。第二種型別使用分支高速線纜(將800G分為2x400G),例如MCP7Y00-NXXX或MCP7Y10-NXXX。

    問:在Superpod網路中,每台伺服器上的4個NDR200卡是否可以使用1x4線纜直接連線到同一交換機,還是應該使用2個1x2線纜連線到不同的交換機?

    答:在Superpod網路中,不建議使用一分四線纜將每台伺服器上的4個NDR200埠直接連線到同一交換機。這種連線方式不符合Superpod網路規則。為了確保NCCL/SHARP的出色效能,葉交換機應使用一對四線纜以特定的模式連線不同伺服器的NDR200埠。

    問:關於最新的Superpod網路,根據Superpod網路白皮書的說明,在計算網路中需要單獨配置2個帶有UFM軟體的IB交換機。然而,這樣的配置會導致集群中少一個GPU節點。如果選擇不設定單獨的UFM交換機,而是僅在管理節點上部署UFM軟體,我能否透過另一組儲存網路管理集群而不影響計算網路?

    答:建議配置UFM裝置,包括軟體。在計算網路中的管理節點上部署UFM軟體是一種替代方案,但它不應承擔GPU計算工作負載。儲存網路作為一個獨立的網路層面執行,不能用於管理計算集群。

    問:企業UFM、SDN、遙測和Cyber-Al之間有什麽區別?購買UFM是否有必要?

    答:可以使用OFED中包含的opensm和命令指令碼工具進行簡單的管理和監控,但缺少UFM友好的圖形化使用者介面和許多功能。

    問:交換機、OFED和UFM所需的子網路管理器數量有差異嗎?哪個更適合客戶部署?

    答:交換機管理適用於最多2K個節點的網路。UFM和OFED的openSM節點管理能力沒有限制,但需要與管理節點的CPU和硬體處理能力協調。

    問:為什麽一個具有64個400Gb埠的交換機只有32個OSFP埠?

    答:這個限制在於2U面板的尺寸和功耗限制,它只能容納32個插槽。這個配置是為了支持兩個400G埠的OSFP介面而設計的。在NDR交換機中,插槽和埠的概念是有區別的。

    問:是否可以使用線纜連線兩個具有不同介面的模組來傳輸數據?例如,使用一根線纜將伺服器上的OSFP埠連線到交換機上的QSFP112埠?

    答:模組的互連與封裝是獨立的。OSFP和QSFP112主要描述模組的物理尺寸。只要乙太網路介質型別相同(即,鏈路的兩端都是400G-DR4或400G-FR4等),OSFP和QSFP112模組可以相互相容。

    問:UFM可以用來監控RoCE網路嗎?

    答:不可以,UFM僅支持InfiniBand網路。

    問:對於管理型和非管理型交換機,UFM的功能是否相同?

    答:是的,功能是相同的。

    問:IB線纜支持的最大傳輸距離是多少,會不會影響傳輸頻寬和延遲?

    答:光模組+跳線可以達到大約500m,而無源高速線纜的範圍約為3m,有源ACC線纜可達到5m。

    問:CX7網卡是否可以連線到其他支持乙太網路模式下RDMA的400G乙太網路交換機?

    答:可以建立400G乙太網路連線,並且RoCE可以在這種情況下工作,但效能不能保證。對於400G乙太網路,建議使用由BF3+Spectrum-4組成的Spectrum-X平台。

    問:NDR是否與HDR和EDR相容,這些線纜和模組只有一種規格嗎?

    答:是的,通常使用OSFP到2xQSFP56 DAC/AOC線纜以確保與HDR或EDR相容。

    問:OSFP網卡端的模組應該是扁平模組嗎?

    答:網卡配有散熱器,所以可以直接使用厚模組。散熱片模組主要用於液冷交換機端。

    問:IB網卡是否支持乙太網路模式下的RDMA?

    答:可以啟用RoCE,建議使用輝達(NVIDIA) Spectrum-X解決方案。

    問:為什麽沒有NDR光纜?

    答:OSFP模組體積大、較重,使得光纖更容易受到損壞。一個兩分支的線纜會有3個大型光模組埠,而一個四分支的線纜會有5個光模組埠。這增加了在安裝過程中光纖斷裂的風險,尤其是在30m的AOCs中。

    問:除了不同的光模組外,400G IB和400G乙太網路使用的線纜是否相同?

    答:線纜是相同的,但需要註意的是它們都是成8°角的APC型別。

    問:CX7網卡對延遲效能有特定要求嗎?在最佳化的偵錯環境下,例如完全使用記憶體和繫結核心,網路延遲要求是多少?可接受的延遲值是多少,例如小於多少μs?

    答:延遲效能取決於測試機器的頻率和配置,以及所使用的測試工具,如perftest和MPI。

    問:OSFP網卡端的模組應該是OSFP-平模組嗎?為什麽提到了OSFP-搭載散熱器?

    答:「搭載散熱器」是指整合在插槽中的散熱器。

    問:UFM在這個集群解決方案中起什麽作用?

    答:UFM在伺服器上獨立執行,可以被視為一個節點。它支持使用2個伺服器實作高可用性。但是,不建議在處理計算工作負載的節點上執行UFM。

    問:推薦為什麽規模的網路集群配置UFM?

    答:建議為所有InfiniBand網路配置UFM,因為UFM不僅提供openSM,還提供其他強大的管理和介面功能。

    問:PCIe 5只支持最高512G嗎?PCIe 4呢?

    答:PCIe Gen5提供最高32G x 16通道,從而獲得最大頻寬512G。另一方面,PCIe Gen4提供最高16G x 16通道,提供最大頻寬256G。

    問:IB網路卡支持單工或雙工模式嗎?

    答:IB網路卡都是雙工的。單工或雙工只是對當前裝置的一個概念,因為發射和接收數據的物理通道已經分開。

    問:飛速(FS)能為建設IB網路集群提供技術支持和高品質產品嗎?

    答:當然可以,飛速(FS)專註於提供高效能計算和數據中心解決方案。在構建IB網路集群方面,飛速(FS)擁有豐富的經驗和專業知識,並提供多種連線方案,以滿足不同客戶的需求。

    相關閱讀:

    轉載申明:轉載 本號文章請 註明作者 來源 ,本號釋出文章若存在版權等問題,請留言聯系處理,謝謝。

    推薦閱讀

    更多 架構相關技術 知識總結請參考「 架構師全店鋪技術資料打包 (全) 」相關電子書( 41本 技術資料打包匯總詳情 可透過「 閱讀原文 」獲取)。

    全店內容持續更新,現下單「 架構師技術全店資料打包匯總(全) 」一起發送「 和「 pdf及ppt版本 ,後續可享 全店 內容更新「 免費 」贈閱,價格僅收 249 元(原總價 399 元)。

    溫馨提示:

    掃描 二維碼 關註公眾號,點選 閱讀原文 連結 獲取 架構師技術全店資料打包匯總(全) 電子書資料詳情