A100/H100/GH200集群：网络架构及光模块需求

2024-04-01码农

本文来自「」。传统数据中心经历了从三层架构到叶脊架构的改变，主要是为了适配数据中心东西向流量的增长。随着数据上云的进程持续加速，云计算数据中心规模持续扩大，而其中所采用的的虚拟化、超融合系统等应用推动数据中心东西向流量大幅增长 —— 根据思科此前的数据， 2021 年数据中心相关的流量中，数据中心内部的流量占比超过 70% 。

关于CPU、服务器和存储详细技术，请参考「」，「」、「」、「」、「」、「」、「」、「」等等。

以传统三层架构到叶脊架构的转变为例，叶脊网络架构下，光模块数量提升最高可达到数十倍。

基于缩小网络瓶颈考虑，大规模 AI 集群的网络架构需要满足大带宽、低时延、无损的需求。智算中心网络架构一般采用 Fat-Tree （胖树）网络架构，具有无阻塞网络的特点。

同时为避免节点内互联瓶颈，英伟达采用 NVLink 实现卡间高效互联。对比 PCIe ， NVLink 具有更高带宽优势，成为英伟达显存共享架构的基础，创造了新的 GPU 到 GPU 的光连接需求。

A100 ：网络结构及光模块需求测算

每个 DGX A100 SuperPOD 基本部署结构信息为： 140 台服务器 ( 每台服务器 8 张 GPU ） + 交换机（每台交换机 40 个端口，单端口 200G ）；网络拓扑结构为 IB fat-tree （胖树）。

关于网络结构的层数：针对 140 台服务器，会进行三层网络结构部署（服务器 -Leaf 层交换机 -Spine 层交换机 -Core 层交换机），每层交换机对应的线缆数分别为 1120 根 -1124 根 -1120 根。

假设服务器和交换机之间采用铜缆，基于一条线缆对应 2 个 200G 光模块计算， GPU: 交换机 : 光模块 =1:0.15:4 ；若采用全光网络， GPU: 交换机 : 光模块 =1:0.15:6 。

H100 ：网络结构及光模块需求测算

每个 DGX H100 SuperPOD 基本部署结构信息为： 32 台服务器 ( 每台服务器 8 张 GPU ） +12 台交换机；网络拓扑结构为 IB fat-tree （胖树），交换机单端口 400G 速率，可合并形成 800G 端口。

针对 4SU 集群，假设为全光网络、三层 Fat-Tree 架构下，服务器和 Leaf 层交换机使用 400G 光模块， Leaf-Spine 和 Spine-Core 使用 800G 光模块，则 400G 光模块数量为 32*8*4=256 只，使用 800G 的数量为 32*8*2.5=640 只。

即 GPU: 交换机 :400G 光模块 :800G 光模块 =1:0.08:1:2.5 。

GH200 ：网络结构及光模块需求测算

针对单个 GH200 集群： 256 张超级芯片 GPU 互联，采用 2 层 fat-tree 网络结构，其中两层网络均采用 NVLink switch 来完成搭建，第一层（服务器和 Level 1 交换机）之间使用了 96 台交换机， Level 2 使用了 36 个交换机。 NVLink switch 的配置参数为：每台交换机拥有 32 个端口，每个端口速率为 800G 。由于 NVLink 4.0 对应互联带宽双向聚合是 900GB/s ，单向为 450GB/s ，则 256 卡的集群中，接入层总上行带宽为 115200GB/s ，考虑胖树架构以及 800G 光模块传输速率（ 100GB/s ）， 800G 光模块总需求为 2304 块。因此， GH200 集群内， GPU: 光模块 =1:9 。

若考虑多个 GH200 互联，参考 H100 架构， 3 层网络架构下， GPU:800G 光模块需求 =1:2.5 ； 2 层网络架构下， GPU:800G 光模块 =1:1.5 。即多个 GH200 互联情况下， GPU:800G 光模块上限 =1: （ 9+2.5 ） =1:11.5 。

总结：

随着算力集群不断提升网络性能，高速光模块需求弹性加大。以英伟达集群为例，加速卡所适配的网卡接口速率和其网络协议带宽密切相关， A100 GPU 支持 PCIe 4.0 ，最大支持单向带宽为 252Gb/s ，即 PCIe 网卡速率需小于 252Gb/s ，因此搭配搭配 Mellanox HDR 200Gb/sInfiniband 网卡； H100 GPU 支持 PCIe 5.0 ，最大支持单向带宽为 504Gb/s ，因此搭配 Mellanox NDR 400Gb/s Infiniband 网卡。

所以， A100 向 H100 升级，其对应的光模块需求从 200G 提升到 800G （ 2 个 400G 端口合成 1 个 800G ）；而 GH200 采用 NVLink 实现卡间互联，单向带宽提升到 450GB/s ，对应 800G 需求弹性进一步提升。

若 H100 集群从 PCIe 5.0 提升到 PCIe 6.0 ，最大支持单向带宽提升到 1024Gb/s ，则接入层网卡速率可提升到 800G ，即接入层可使用 800G 光模块，集群中单卡对应 800G 光模块需求弹性对应翻倍。

Meta 算力集群架构及应用

Meta 此前发布「 Research SuperCluster」项目用于训练 LLaMA 模型。 RSC 项目第二阶段， Meta 总计部署 2000 台 A100 服务器，包含 16000 张 A100 GPU ，集群共包含 2000 台交换机、 48000 条链路，对应三层 CLOS 网络架构，若采用全光网络，对应 9.6 万个 200G 光模块，即 A100: 光模块 =1:6 ，与前文测算的 A100 架构相同。

针对 LLaMA3 的训练， Meta 使用了 H100 GPU ，包含 IB 和以太网集群，最大均可支持 3.2 万张 GPU 。针对以太网方案，根据 Meta 披露的信息，其算力集群仍采用了有收敛的叶脊网络架构 —— 每个机架 2 台服务器，接入 1 个 TOR 交换机（采用 Wedge 400 ），一个集群中有 252 台服务器； Cluster 交换机采用 Minipack2 OCP 机架交换机，一个集群中共使用 18 个 Cluster 交换机，推算收敛比为 3.5:1 ；汇聚层交换机共 18 台（采用 Arista 7800R3 ），收敛比为 7:1 。集群主要采用 400G 光模块，从集群架构来看，以太网方案仍有待在协议层面进一步突破，推动无阻塞网络的构建，关注超以太网联盟等进展。

AWS 算力集群架构及应用

AWS 推出了第二代 EC2 Ultra Clusters 集群，包括 H100 GPU 和自研 Trainium ASIC 方案。 AWS EC2 Ultra Clusters P5 实例（即 H100 方案）提供 3200 Gbps 的聚合网络带宽并支持 GPUDirect RDMA ，最大可支持 2 万张 GPU 组网； Trn1n 实例（自研 Trainium 方案）单集群 16 卡，提供 1600 Gbps 的聚合网络带宽，最大支持 3 万张 ASIC 组网，对应 6 EFlops 算力。

AWS EC2 Ultra Clusters 卡间互联分别采用 NVLink （ H100 方案）和 NeuronLink （ Trainium 方案），集群互联采用自研 EFA 网络适配器。对比英伟达方案， AWS 自研 Trainium ASIC 集群单卡上行带宽推算为 100G （ 1600G 聚合带宽 /16 卡 =100G ），因此 AWS 目前架构中暂无 800G 光模块需求。

Google 算力集群架构及应用

Google 最新的算力集群由配置为三维环面的 TPU 阵列组成。一维环面对应每个 TPU 连接到相邻的 2 个 TPU ，二维环面为 2 个正交的环，对应每个 TPU 连接到相邻的 4 个 TPU ；目前谷歌 TPUv4 即三维环面，每个 TPU 连接到 6 个相邻的 TPU 。

基于此，每个机柜内部构建 4*4*4=64 颗 TPU 的 3D 网络结构。 3D 结构的外表部分连接到 OCS ，则一个 4096 颗 TPU 互联对应 64 个机柜、 48 个 OCS 交换机即 48*64=6144 个光模块，内部则采用 DAC 连接（ 18000 条），则对应 TPU: 光模块 =1:1.5 。在 OCS 方案下，光模块需要采用波分复用方案，并增加环形器（ Circulator ）减少光纤数量，其光模块方案具有定制化特征（ 800G VFR8 ）。