当前位置: 欣欣网 > 码农

大模型时代,交换机技术演变、性能分析、衡量指标

2024-05-03码农

随着计算机网络的持续升级,协议在数据交换过程中发挥着越来越重要的作用。其中OSI七层协议是一个在20世纪80年代引入的全球标准,旨在规范计算机间通信。该协议通过分层网络模型展示其复杂性。从物理层到应用层,每个网络层都为实现无缝通信做出贡献。本文将深入探讨从传统的TCP/IP协议到面向高性能计算(HPC)的RDMA技术的演变,重点关注高吞吐量和低延迟的需求。同时,还将讨论网络架构、交换机的作用,以及以太网和InfiniBand之间的选择,旨在实现高性能和成本效益的追求。这次探索充分表现出网络技术的动态性,其中适应性是满足现代数据中心不断增长需求的关键。

相关阅读:

OSI协议及在高性能计算中向RDMA的过渡

协议是为计算机网络内的数据交换而建立的一组规则、标准或协议。在法律层面,OSI七层协议被视为国际标准。该协议于20世纪80年代引入,旨在通过其七层网络模型标准化计算机间通信,以满足开放网络的要求。

物理层规定硬件之间的通信方式,并为物理设备(包括接口类型和传输速率)建立了标准,便于传输比特流(由0和1表示的数据)。

数据链路层主要负责帧编码和错误控制。它将来自物理层的数据封装成帧并传输到上层。此外它可以将来自网络层的数据拆分为比特流,以便传输到物理层,并通过校验和机制实现错误检测和纠正。

网络层在节点之间创建逻辑电路,利用IP地址解析(每个节点都有一个IP地址)并以数据包传输数据。

传输层监控两个节点之间数据传输的质量,确保正确顺序,并处理丢失、重复和拥塞控制等问题。

会话层管理网络设备中的会话连接,提供会话控制和同步,协调不同设备之间的通信。

表示层负责数据格式转换和加密/解密操作,确保不同设备上的应用程序正确解释和处理数据。

应用层向用户提供直接的网络服务和应用接口,涵盖电子邮件、文件传输和远程登录等各种应用程序。

这些层共同构成了OSI七层模型,每个层具有特定的功能和意义,促进计算机之间的通信和数据交换。

需要注意的是,现实中的网络协议可能会偏离OSI模型,这些协议是根据实际需求和网络架构进行设计和实现的。比如TCP/IP协议,它是一个由各种协议组成的协议套件,大致分为四层:应用层、传输层、网络层和数据链路层。TCP/IP相当于是七层协议的优化版。

在高性能计算(HPC)领域,由于对高吞吐量和低延迟的需求,传统的TCP/IP协议已逐渐被远程直接内存访问(RDMA)技术所取代。TCP/IP同时也存在一些缺陷,如引入延迟和因多个上下文切换、CPU封装导致的显著CPU开销。

RDMA作为一种技术允许通过网络接口直接访问内存数据,无需操作系统的参与。它可实现高吞吐量、低延迟的网络通信,非常适用于大规模并行计算集群。虽然RDMA并没有规定整个协议栈,但它对特定传输方式提出严格的要求,如最小的数据包丢失、高吞吐量和低延迟。基于以太网的RDMA技术有多种变种,如InfiniBand、ROCE和iWARP,每个变种都有其技术细节和成本考虑。

叶脊架构与传统的三层网络架构比较

交换机和网关在不同网络层上运行。交换机在数据链路层工作,利用MAC地址进行设备标识并执行数据包转发。它促进了不同设备之间的通信。而网关在网络层操作,通过使用IP地址连接各种子网络来实现连接。

传统的数据中心通常采用三层架构,包括接入层、汇集层和核心层。接入层通常直接连接服务器,常用的接入交换机是TOR交换机。汇聚层层作为接入层和核心层之间的中间层。核心交换机处理进出数据中心的流量,并与汇聚层建立连接。

然而,在云计算的发展背景下,传统的三层网络架构的缺陷变得越来越明显:

  • 带宽浪费:每个L2交换机组管理一个POD,每个POD具有独立的VLAN网络。使用生成树协议(STP)通常会导致VLAN网络只有一个可活动的L2交换机,其他交换机被阻塞。这阻碍了汇聚层的横向扩展。

  • 故障域过大:由于STP算法,网络拓扑变化在其收敛过程中可能导致潜在网络中断。

  • 高延迟:随着数据中心的扩展,东西向流量的增加导致延迟显著增加。在三层网络架构中,服务器之间的通信经过多个交换机,提升L1和L2交换机的性能也会增加使用成本。

  • 相比之下,叶脊架构提供了显著的优势,包括扁平化设计、低延迟和高带宽。在叶脊网络中,叶交换机代替传统L3交换机,而脊交换机则充当L1交换机。

    脊和叶交换机使用等价成本多路径(ECMP)动态选择多条路径。在叶层的接入端口和上行链路没有瓶颈的情况下,这种架构可以实现无阻塞性能。由于每个叶交换机都可以连接到每个脊交换机,如果某个脊交换机出现问题,只会导致数据中心吞吐性能轻微下降。

    英伟达(NVIDIA)SuperPOD架构的深入探讨

    SuperPOD是指通过连接多个计算节点实现高吞吐性能的服务器集群。以英伟达(NVIDIA)DGX A100 SuperPOD为例,推荐配置QM8790交换机,可提供40个端口,每个端口的速率为200G。

    其采用的架构遵循一个无阻塞结构。在初始层中,DGX A100服务器配备了8个接口,每个接口连接到8个叶交换机其中的一个。一个SuperPOD架构由20台服务器组成,形成一个SU。因此总共需要8台SU服务器。在第二层架构中,由于网络是无阻塞的且端口速率是统一的,脊交换机上行端口的数量应大于或等于叶交换机下行端口的数量。因此1个SU对应8个叶交换机和5个脊交换机,2个SU对应16个叶交换机和10个脊交换机,以此类推,当SU的数量超过6个时,建议添加一个L1交换机。

    对于DGX A100 SuperPOD,计算网络的服务器与交换机的比例约为1:1.17(基于7个SU)。然而考虑到存储和网络管理的需求,DGX A100 SuperPOD和DGX H100 SuperPOD的服务器与交换机的比例分别约为1:1.34和1:0.50。

    从端口来看,DGX H100交换机的推荐配置每个SU配备31台服务器。DGX H100交换机设计4个接口,使用QM9700交换机,可提供64个端口,每个端口速率为400G。

    从交换机性能来看,DGX H100 SuperPOD的推荐配置中的QM9700交换机引入了Sharp技术。该技术利用聚合管理器在物理拓扑中构建了流聚合树(SAT)。树中的多个交换机进行并行计算,从而降低延迟并提高网络性能。QM8700/8790+CX6交换机支持最多2个SAT,而QM9700/9790+CX7支持最多64个SAT。随着端口数量的增加,交换机数量减少。

    交换机选择:以太网、InfiniBand和RoCE的比较

    以太网交换机和InfiniBand交换机之间的根本区别在于TCP/IP协议和RDMA之间的差异。目前以太网交换机更常用于传统数据中心,而InfiniBand交换机在存储网络和高性能计算(HPC)应用环境中更为常见。无论是以太网交换机还是InfiniBand交换机,都可实现400G的最大带宽。

    RoCE vs InfiniBand vs TCP/IP

    关键考虑因素:

  • 高可扩展性:交换机中的三种网络协议都具有高可扩展性,其中InfiniBand展现了最高的可扩展性。一个单独的InfiniBand子网可以支持数以万计的节点,提供相对可扩展的架构,与InfiniBand路由器相比,可以实现几乎无限的集群规模。

  • 高性能:TCP/IP引入了额外的CPU处理开销和延迟,导致相对较低的性能。通过利用现有的以太网基础设施,RoCE提高了数据中心的速率和效率。然而InfiniBand交换机以串行方式逐位传输数据,并利用交换结构,在更快、更高效的通信方面表现出色。

  • 管理便利性:虽然RoCE和InfiniBand的延迟较低、性能较高,但TCP/IP通常更易于部署和管理。在网络管理中使用TCP/IP进行设备和网络连接即可实现集中管理,节省人力成本。

  • 成本效益:对于注重预算的企业来说,InfiniBand可能带来挑战,因为它依赖于昂贵的IB交换机端口来处理大量的应用程序负载,从而增加了计算和维护成本。相比之下利用以太网交换机的RoCE和TCP/IP提供了更具成本效益的解决方案。

  • 网络设备:RoCE和TCP/IP利用以太网交换机进行数据传输,而InfiniBand利用专用的IB交换机来传输应用程序。IB交换机通常需要与支持IB协议的设备进行互连,使它们相对封闭且难以替换。

  • 现代数据中心对底层互连的带宽和延迟要求非常高。在这种情况下,传统的TCP/IP网络协议表现不佳,引入了CPU可以实现开销处理和较高的延迟。

    对于在RoCE和InfiniBand之间进行选择的企业来说,需仔细考虑其个性化需求和成本因素。优先考虑高性能网络连接的企业可能会更倾向于选择InfiniBand,而追求出色性能、易于管理和成本效益的企业则可能选择RoCE来构建数据中心。

    相关阅读:

    转载申明:转载 本号文章请 注明作者 来源 ,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

    推荐阅读

    更多 架构相关技术 知识总结请参考「 架构师全店铺技术资料打包 (全) 」相关电子书( 41本 技术资料打包汇总详情 可通过「 阅读原文 」获取)。

    全店内容持续更新,现下单「 架构师技术全店资料打包汇总(全) 」一起发送「 和「 pdf及ppt版本 ,后续可享 全店 内容更新「 免费 」赠阅,价格仅收 249 元(原总价 399 元)。

    温馨提示:

    扫描 二维码 关注公众号,点击 阅读原文 链接 获取 架构师技术全店资料打包汇总(全) 电子书资料详情