本文来自「 」。传统数据中心经历了从三层架构到叶脊架构的改变,主要是为了适配数据中心东西向流量的增长。 随着数据上云的进程持续加速,云计算数据中心规模持续扩大,而其中所采用的的虚拟化、超融合系统等应用推动数据中心东西向流量大幅增长 —— 根据思科此前的数据, 2021 年数据中心相关的流量中,数据中心内部的流量占比超过 70% 。
关于CPU、服务器和存储详细技术,请参考「 」,「 」、「 」、「 」、「 」、「 」、「 」、「 」等等。
以传统三层架构到叶脊架构的转变为例,叶脊网络架构下,光模块数量提升最高可达到数十 倍。
基于缩小网络瓶颈考虑,大规模 AI 集群的网络架构需要满足大带 宽、低时延、无损的需求。 智算中心网络架构一般采用 Fat-Tree (胖树)网络架构 ,具有无阻塞网络的特点。
同时为避免节点内互联瓶颈,英伟达采用 NVLink 实现卡间高效 互联。 对比 PCIe , NVLink 具有更高带宽优势,成为英伟达显存共享架构的基础,创造了新的 GPU 到 GPU 的光连接需求。
A100 :网络结构及光模块需求测算
每个 DGX A100 SuperPOD 基本部署结构信息为: 140 台服务器 ( 每台服务器 8 张 GPU ) + 交换机(每台交换机 40 个端口,单端口 200G );网络拓扑结构为 IB fat-tree (胖树)。
关于网络结构的层数: 针对 140 台服务器,会进行三层网络结构部署(服务器 -Leaf 层交换机 -Spine 层交换机 -Core 层交换机),每层 交换机对应的线缆数分别为 1120 根 -1124 根 -1120 根。
假设服务器和交换机之间采用铜缆,基于一条线缆对应 2 个 200G 光模块计算, GPU: 交换机 : 光模块 =1:0.15:4 ;若采用全光网络, GPU: 交换机 : 光模块 =1:0.15:6 。
H100 :网络结构及光模块需求测算
每个 DGX H100 SuperPOD 基本部署结构信息为: 32 台服务器 ( 每台服务器 8 张 GPU ) +12 台交换机;网络拓扑结构为 IB fat-tree (胖 树),交换机单端口 400G 速率,可合并形成 800G 端口。
针对 4SU 集群,假设为全光网络、三层 Fat-Tree 架构下,服务器和 Leaf 层交换机使用 400G 光模块, Leaf-Spine 和 Spine-Core 使用 800G 光模块,则 400G 光模块数量为 32*8*4=256 只,使用 800G 的数量为 32*8*2.5=640 只。
即 GPU: 交换机 :400G 光模块 :800G 光模块 =1:0.08:1:2.5 。
GH200 :网络结构及光模块需求测算
针对单个 GH200 集群: 256 张超级芯片 GPU 互联,采用 2 层 fat-tree 网络结构,其中两层网络均采用 NVLink switch 来完成搭建,第一 层(服务器和 Level 1 交换机)之间使用了 96 台交换机, Level 2 使用了 36 个交换机。 NVLink switch 的配置参数为:每台交换机拥有 32 个端口,每个端口速率为 800G 。由于 NVLink 4.0 对应互联带宽双向聚合是 900GB/s ,单向为 450GB/s ,则 256 卡的集群中,接入层总上行带宽为 115200GB/s ,考虑胖树架构以及 800G 光模块传输速率( 100GB/s ), 800G 光模块总需求为 2304 块 。因此, GH200 集群内, GPU: 光模块 =1:9 。
若考虑多个 GH200 互联, 参考 H100 架构, 3 层网络架构下, GPU:800G 光模块需求 =1:2.5 ; 2 层网络架构下, GPU:800G 光模块 =1:1.5 。即多个 GH200 互联情况下, GPU:800G 光模块上限 =1: ( 9+2.5 ) =1:11.5 。
总结:
随着算力集群不断提升网络性能,高速光模块需求弹性加大 。以英伟达集群为例,加速卡所适配的网卡接口速率和其网络协议带宽密切 相关, A100 GPU 支持 PCIe 4.0 ,最大支持单向带宽为 252Gb/s ,即 PCIe 网卡速率需小于 252Gb/s ,因此搭配搭配 Mellanox HDR 200Gb/sInfiniband 网卡; H100 GPU 支持 PCIe 5.0 ,最大支持单向带宽为 504Gb/s ,因此搭配 Mellanox NDR 400Gb/s Infiniband 网卡。
所以, A100 向 H100 升级,其对应的光模块需求从 200G 提升到 800G ( 2 个 400G 端口合成 1 个 800G );而 GH200 采用 NVLink 实现卡间互 联,单向带宽提升到 450GB/s ,对应 800G 需求弹性进一步提升。
若 H100 集群从 PCIe 5.0 提升到 PCIe 6.0 ,最大支持单向带宽提升到 1024Gb/s ,则接入层网卡速率可提升到 800G ,即接入层可使用 800G 光模块,集群中单卡对应 800G 光模块需求弹性对应翻倍。
Meta 算力集群架构及应用
Meta 此前发布「 Research SuperCluster」 项目用于训练 LLaMA 模型。 RSC 项目第二阶段, Meta 总计部署 2000 台 A100 服务器, 包含 16000 张 A100 GPU ,集群共包含 2000 台交换机、 48000 条链路,对应三层 CLOS 网络架构,若采用全光网络,对应 9.6 万个 200G 光模块,即 A100: 光模块 =1:6 ,与前文测算的 A100 架构相同。
针对 LLaMA3 的训练, Meta 使用了 H100 GPU ,包含 IB 和以太网集群,最大均可支持 3.2 万张 GPU 。针对以太网方案,根据 Meta 披 露的信息,其算力集群仍采用了有收敛的叶脊网络架构 —— 每个机架 2 台服务器,接入 1 个 TOR 交换机(采用 Wedge 400 ),一个集群中有 252 台服务器; Cluster 交换机采用 Minipack2 OCP 机架交换机,一个集群中共使用 18 个 Cluster 交换机,推算收敛比为 3.5:1 ;汇聚层交换机共 18 台(采用 Arista 7800R3 ),收敛比为 7:1 。集群主要采用 400G 光模块,从集群架构来看,以太网方案仍 有待在协议层面进一步突破,推动无阻塞网络的构建,关注超以太网联盟等进展。
AWS 算力集群架构及应用
AWS 推出了第二代 EC2 Ultra Clusters 集群,包括 H100 GPU 和自研 Trainium ASIC 方案。 AWS EC2 Ultra Clusters P5 实例(即 H100 方案)提供 3200 Gbps 的聚合网络带宽并支持 GPUDirect RDMA ,最大可支持 2 万张 GPU 组网; Trn1n 实例(自研 Trainium 方案)单集群 16 卡,提供 1600 Gbps 的聚合网络带宽,最大支持 3 万张 ASIC 组网,对应 6 EFlops 算力。
AWS EC2 Ultra Clusters 卡间互联分别采用 NVLink ( H100 方案)和 NeuronLink ( Trainium 方案),集群互联采用自研 EFA 网络适配器。对比英伟达方案, AWS 自研 Trainium ASIC 集群单卡上行带宽推算为 100G ( 1600G 聚合带宽 /16 卡 =100G ),因此 AWS 目前架构中暂无 800G 光模块需求。
Google 算力集群架构及应用
Google 最新的算力集群由配置为三维环面的 TPU 阵列组成。 一维环面对应每个 TPU 连接到相邻的 2 个 TPU ,二维环面为 2 个正交的 环,对应每个 TPU 连接到相邻的 4 个 TPU ;目前谷歌 TPUv4 即三维环面,每个 TPU 连接到 6 个相邻的 TPU 。
基于此,每个机柜内部构建 4*4*4=64 颗 TPU 的 3D 网络结构。 3D 结构的外表部分连接到 OCS ,则一个 4096 颗 TPU 互联对应 64 个机柜、 48 个 OCS 交换机即 48*64=6144 个光模块,内部则采用 DAC 连接( 18000 条),则对应 TPU: 光模块 =1:1.5 。在 OCS 方案下,光模块需要采用波分复用方案,并增加环形器( Circulator )减少光纤数量,其光模块方案具有定制化特征( 800G VFR8 )。
下载链接:
走进芯时代(76):HBM迭代,3D混合键合成设备材料发力点
走进芯时代(75):「半导核心材料」:万丈高楼材料起,夯实中国「芯」地基」
走进芯时代(74):以芯助先进算法,以算驱万物智能
走进芯时代(60):AI算力GPU,AI产业化再加速,智能大时代已开启
走进芯时代(58):高性能模拟替代渐入深水区,工业汽车重点突破
走进芯时代(57):算力大时代,处理器SOC厂商综合对比
走进芯时代(49):「AI芯片」,AI领强算力时代,GPU启新场景落地
走进芯时代(46):「新能源芯」,乘碳中和之风,基础元件腾飞
走进芯时代(43):显示驱动芯—面板国产化最后一公里
走进芯时代(40):半导体设备,再迎黄金时代
转载申明:转载 本号文章请 注明作者 和 来源 ,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多 架构相关技术 知识总结请参考「 架构师全店铺技术资料打包 (全) 」相关电子书( 41本 技术资料打包汇总详情 可通过「 阅读原文 」获取)。
全店内容持续更新,现下单「 架构师技术全店资料打包汇总(全) 」一起发送「 」 和「 」 pdf及ppt版本 ,后续可享 全店 内容更新「 免费 」赠阅,价格仅收 249 元(原总价 399 元)。
温馨提示:
扫描 二维码 关注公众号,点击 阅读原文 链接 获取 「 架构师技术全店资料打包汇总(全) 」 电子书资料详情 。