本文来自「 」, 根据OpenAI的【Scaling Laws for Neural Language Model】,适当扩大模型参数量,语言模型的生成及预测能力将会提高,但这一正向关系很大程度上受到计算约束的限制,即相同的计算约束下,总有最佳的模型参数量和最大的模型有效程度。因此,如何最大程度提高集群的计算约束成为新的核心议题。
集群的有效算力可以分解为GPU利用率、集群的线性加速比,GPU的利用率受制于芯片架构的制程、内存和/O访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素,「集群线性加速比」则取决于节点的通信能力、并行训练框架、资源调度等因素。
因而,如何设计高效的集群组网方案,满足低时延、大带宽、无阻塞的机间通信,从而降低多机多卡间数据同步的通信耗时,提升GPU有效计算时间比(GPU计算时间/整体训练时间)至关重要。基于中国移动研究院的【 】,AI大模型对网络建设也提出了新的要求:
1)超大规模组网: 训练参数达到千亿-万亿级别的AI超大模型代表着超高速算力需求,并进一步对应着大量的硬件需求及与之匹配的网络可延展能力。根据【 】,当单集群中卡的数量达到万卡级别后,相应的,如何实现最优运算效率、最佳数据处理能力、硬件层面的万卡互联、网络系统的可用和易运维等,会成为AI智算中心的新议题。
2)超高带宽需求: 多卡构成的算力集群内,不可避免的存在服务器机内和机间通信。
机内,模型并行产生的All Reduce集合通信数据量将达到百GB级别,因此机内GPU间的通信带宽及方式对于流完成时间十分重要。机间,流水线并行、数据并行及张量并行模式中部分集合通信亦将达到百GB级别,复杂的集合通信模式将在同一时刻产生多对一、一对多的通信,因此机间GPU的高速互联对于网络的单端口宽带、节点间的可用链路数量及网络总带宽均提出了高要求。
3)超低时延: 数据通信传输的时延分为静态和动态时延两个部分,静态时延由转发芯片的能力和传输的距离决定,当网络拓扑与通信数据量确定时,此部分时延通常为固定值。动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞、丢包与网络抖动引起。
4)超高稳定性与自动化部署: 由于卡的数量大幅增加,网络的稳定性成为网络集群的「木桶短板」,网络故障及性能波动将导致计算节点间的连通性和计算资源的利用率均受到影响。
RDMA可以降低多机多卡间端到端通信时延。在传统网络中,数据传输涉及多个步骤:首先将数据从源系统的内核复制到网络堆栈,然后通过网络发送。最后,在接收端执行多个步骤后,将数据复制到目标系统的内核中。RDMA可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。目前RDMA技术的主要采用方案有Infiniband和RoCEv2(基于RDMA的Ethernet技术,后简称为RoCE)两种。
IB(Infiniband)和RoCE(基于RDMA的Ethernet技术)是目前主流的两种网络技术,IB架构的网络胜在低延迟及高带宽,以太网则优在开放性及性价比。RoCE是应用相对广泛,相对成熟的网络互联技术,也是整个互联网络大厦的基石,兼容性好,可实现不同的系统之间的互连互通。同时,RoCE的供应商较多,也因此具有相对较强的性价比优势。IB的应用领域很专,作为高带宽、低时延、高可靠的网络互联技术,在HPC集群领域广泛应用。但由于供应商较少,部署成本高于RoCE。
RoCE是足够好的方案,而InfiniBand是特别好的方案。不可否认的是,在超算集群中,IB架构仍是选择相对较多、效率相对较高的互联方式。虽然IB网络结构有性能优势,基于成本和开放性考虑,大多数云计算公司仍表示计划在其生产型人工智能基础设施中使用开源以太网交换机,而不是专有的IB解决方案。根据亚马逊的高级首席工程师Brian Barrett,AWS之所以放弃IB方案,主要是因为:「云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求,专用的IB网络构建的集群如同在汪洋大海中的孤岛」。
2023年7月19日,在Linux基金会的牵头下,由云厂商(MATA、微软),网络设备厂商(博通、思科、惠普),半导体公司(AMD、Intel)等业界各方力量参与的UEC联盟(UItra Ethernet Consortium超级以太网联盟)成立。该联盟将提供基于以太网的开放、互操作、高性能全通信栈架构,以满足人工智能和高性能计算日益增长的大规模网络需求,因而我们认为UEC的成立有利于以太网架构在HPC等高性能计算领域的技术进步。
2000年,IB架构规范的1.0版本正式发布。由于其最早引入RDMA协议,从而源生的具有低延迟、大带宽、高可靠的优势。2015年,InfiniBand技术在TOP500榜单中的占比首次超过了50%,达到51.4%(257套),InfiniBand成为超级计算机最首选的内部连接技术。
目前IB架构的供应商以Nvidia的Mellanox为主。IB协会(InfiniBand TradeAssociation,IBTA)最初由英特尔、微软、SUN公司、IBM、康柏以及惠普公司主导成立。1999年5月,Mellanox由几名从英特尔公司和伽利略技术公司离职的员工,在以色列创立,并于2001年推出了自己首款IB的产品。2002年,原IB阵营的巨头英特尔和微软退出。2010年,Mellanox和Voltaire公司合并,IB主要供应商只剩下Mellanox和QLogic。2012年,英特尔以1.25亿美元的价格收购了QLogic的IB网络业务重回IB阵营,但不久又以1.4亿美元的价格从Cray手中收购了「Gemini」XT和「Aries」XC超级计算互连业务,后基于IB和Aries打造出了新的Omni-Path互联技术。2013年,Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics,进一步完善了自身产业布局。2015年,Mellanox在全球InfiniBand市场上的占有率达到80%。2019年,英伟达(Nvidia)公司击败对手英特尔和微软,以69亿美元的价格成功收购了Mellanox。
我们以英伟达最新一代GB200产品为例:
1、机柜内部
单个rack内部包括18个Compute tray(上10下8)和9个Switch tray,机柜内Computetray和Switch tray之间通过Copper Cable Cartridge相连。通过液冷冷却体系,相较H100的风冷基础设施,在相同的功耗下可以实现25倍的性能。
单个Compute tray包括2颗GB200 Grace Blackwell Superchip、4颗Connectx- 800G Infiniband Supernic及1颗Bluefield-3 DPU。
1)GB200 Grace Blackwell Superchip包含两颗Blackwell GPU和一颗Grace CPU。其中,单颗Blackwell GPU架构尺寸是上一代Hopper GPU的两倍,但AI性能 (FP4)是Hopper的5倍(单颗Blackwell GPU AI性能(FP8)约为20petaFLOPS,8X24GB的HBM3e,8TB/s的内存带宽),有18个NVlink端口连接18颗NVlink switch chip,实现1.8TB/s双向连接速度。
2)Connectx-800GInfiniband Supernic可以实现端到端800Gb/s的网络连接和性能隔离,专为高效管理多租户生成式AI云而设计,通过PCle 6.0提供800Gb/s的数据吞吐量。ConnectX-8 Supernic支持单端口OSFP 224和双端口QSFP112连接器,支持NVIDIA Socket Direct 16通道辅助卡扩展。
3)Bluefield-3 DPU可以通过400Gb/s以太网或NDR 400Gb/s InfiniBand网络连接,以实现卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率和安全性。
单个Switch tray包括2颗NVlink Switch芯片,单颗Switch芯片单颗芯片支持4 接口、单接口1.8TB/s的传输速率。
每个Switch tray盘可提供144个NVlink端口(100GB),14.4TB/s的总带宽。9个Switchtray盘,可以提供9*144=1296个端口,完全连接72个Blackwell GPU上单颗18个,共72*18=1296个NVlink端口。
机柜内连接方面,Compute tray和Switch tray之间通过五代NVlink相连,五代NVlink双向带宽为1.8 TB/s,是上一代的2倍,是PCle Gen5带宽的14倍以上。
1.8TB/s的GPU-to-GPU间通信,使得AI及高性能计算中GPU的扩展成为可能。Computetray中Superchip内部GPU及CPU间通过NVlink Chip-to-Chip连接(双向带宽900GB/s)。
2、机柜之间
GPU=72在现有硬件配置下,单台机柜内部通过NVlink即可实现L1层switch tray连接:
1)铜缆为GB200机柜内首推方案。虽然GB200通过充分提升单芯片的算力密度、应用散热效率更高的液冷方式,实现了在更小的空间内部署更多的GPU卡,使 铜缆连接成为机柜内连接更具性价比的方案。但基于高速率长距离的传输损耗问题,未来迭代节奏与应用的持续性仍有待观察。
GPU>72在现有硬件配置下,单层网络已无法满足要求,需升级至更高层数网络结构。有单一NVlink、IB组网:
1)当所需连接的GPU数量大于72小于576时,在NVlink单一组网的方案中,可以使用架构为全NVlink连接的集群,GPU和光模块的数量比例为1:9。单机柜的NVL72方案中的交换机已没有额外的接口进行更大规模的互联,根据推荐,可扩展集群多采用双机柜NVL72方案,单个机柜有18个Compute Tray、9个Switch Tray。与单机柜版本不同的是,双机柜版本Computer Tray仅一颗GraceBlackwellSuperchip (2 Blackwell GPU+1 Grace CPU)。Switch Tray内容单双机柜版本保持一致。
36颗Blackwell GPU充分连接18颗NVswitch chip共有36*18=648个ports,构成576集群的为双排的16个机柜,则累计需连接的端口为648*16=10368个ports,单口单向速率为50GB/s(双向速率100GB/s)。假设L1至L2层网络通过光模块且采用1.6T光模块(200GB/s),则共需要10368*50/200*2=5184个1.6T光模块,GPU:1.6T光模块=576:5184=1:9。
2)当所需链接的GPU数量大于72时,在IB组网的方案中,若使用最新一代NVIDIAQuantum-X800 Q3400交换机互联,根据端口数的不同,同样网络层数所能承载的最多GPU数量不同,GPU和光模块的比例略有区别。相较NVIDIAQuantum-2 QM9700仅有的64个400G的ports而言,最新一代NVIDIAQuantum-X800 Q3400交换机有144个800G的ports,最多可以实现 (144^2)/2=10368张GPU的互联。
根据SemiAnalysis的预测,2层网络架构的1.6t光模块/GPU的比例在2.5左右,3层网络架构的1.6t光模块 /GPU的比例在3.5左右。
相关阅读:
转载申明:转载 本号文章请 注明作者 和 来源 ,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多 架构相关技术 知识总结请参考「 架构师全店铺技术资料打包 (全) 」相关电子书( 41本 技术资料打包汇总详情 可通过「 阅读原文 」获取)。
全店内容持续更新,现下单「 架构师技术全店资料打包汇总(全) 」一起发送「 」 和「 」 pdf及ppt版本 ,后续可享 全店 内容更新「 免费 」赠阅,价格仅收 249 元(原总价 399 元)。
温馨提示:
扫描 二维码 关注公众号,点击 阅读原文 链接 获取 「 架构师技术全店资料打包汇总(全) 」 电子书资料详情 。