英伟达InfiniBand：面向AIGC的技术优势分析

2024-05-05码农

在AIGC的训练场景，基本上不差钱的客户都会首选 InfiniBand ，作为跨AI服务器节点的网络组网方案，今天我们就来讲一讲 InfiniBand到底有那些针对AIGC场景的技术优化：

相关阅读：

、、

集体计算能力（Collective Computational Power）

集体通信算法有助于在人工智能模型训练期间确保分布式节点之间的高效和协调通信。它们允许有效地训练大规模模型，提高训练速度，减少通信开销，并使分布式训练能够利用多个节点的集体计算能力。这将加速模型收敛并提高性能。

英伟达为深度学习框架开发了集体通信库，以利用多个节点内和跨多个节点的GPU。NVIDIA Collective Communication Library（ NCCL ）就是这种库的一个例子，它实现了用于全部减少、全部收集、减少、广播、减少分散以及任何基于发送/接收的通信模式的通信算法。它经过优化，可在任何使用PCIe和/或 NVLink 的平台上实现高带宽，并可使用NVSwitch、InfiniBand或以太网跨多台机器扩展。

在网计算（In-Network Computing ）

在网计算这一特性支持网络中基于硬件的计算引擎大规模卸载复杂操作。网络内计算在NVIDIA Quantum InfiniBand交换机上作为NVIDIA可扩展分层聚合和缩减协议（SHARP）实现。

作为一种网内基于树的聚合机制，SHARP支持多个同时进行的集合操作。启用SHARP后，交换机将被识别为聚合节点，并将执行此类数据缩减。NCCL在跨许多多GPU节点执行通信算法时利用了这一功能。由于执行操作时只发送一次数据，因此有效地将数据缩减的带宽增加了一倍，在使用SHARP的端到端NVIDIAQuantum-2400Gb/sInfiniBand网络上运行的NCCL性能将比没有SHARP的800Gb/s网络更好。

自适应路由（Adaptive Routing ）

nfiniBand作为一个软件定义网络（SDN）运行，并由一个名为子网管理器（SM）的软件管理实用程序管理。该集中式实体配置交换机以基于网络条件选择路由。交换机ASIC（从一组输出端口中）选择负载最小的输出端口，该端口将在整个网络中实现最佳性能。不同传出交换机端口之间的选择基于分级机制，该机制考虑了出口端口队列深度和路径优先级，其中最短路径具有更高的优先级。

InfiniBand的自适应路由通过将流量分布在所有网络链路上并提高链路利用率和平衡，从而优化链路带宽，从而最大限度地提高整体性能。重要的是要知道自适应路由会导致网络数据包无序地到达目的地。但是，作为一种端到端解决方案，InfiniBand本身包含管理无序数据包到达的硬件功能。

拥塞控制（ Congestion Control ）

InfiniBand支持全面且可扩展的服务质量（QoS）功能，该功能使用基于信用的流量控制机制来调节发送方和接收方之间的数据流，从而保证确定的带宽和延迟。

InfiniBand实施拥塞控制体系结构（CCA），这是一个管理拥塞事件的三阶段过程。当交换机检测到拥塞时，它会打开一个称为前向显式拥塞通知（FECN）的位（在数据包中）。当数据包到达目的适配器时，它会使用具有不同位集的数据包来响应源适配器，称为反向显式拥塞通知（BECN）。当发送或源适配器收到BECN时，它会通过抑制数据包注入来做出响应。

直通转发，降低转发时延

以太网采用两种数据处理模式: 存储转发交换和直通转发，以太网（包括ROCE无损以太网），默认是采用存储转发模式，交换机需要先将整个数据包完全接收并存储在缓存中，检查数据包的目的地址和完整性后，再进行转发。这种方式会导致一定的延迟，特别是在处理大量数据包时。

而Cut-through（直通转发模式）技术，当交换机接收到数据包时，它只需要读取数据包的头部信息，确定目标端口，然后立即开始转发数据包。这种技术可以显著减少数据包在交换机中的停留时间，从而降低了传输延迟。

AI场景网络转发延时非常关键，直通转发肯定是首选，InfiniBand交换机使用直通转发模式（Cut-Through），让二层报文的转发处理变得非常简单。只需要一个16位的LID（这是由子网管理器直接给的），就能快速找到转发的路径。这样一来，转发的延迟就缩短到了100纳秒以下。

「浅」缓存交换架构

InfiniBand交换机在设计上是「浅」缓冲交换机。以太网交换机可以大致分为「深」或「浅」缓冲交换机。深度缓冲交换机的缓冲区大小以千兆字节（GB）为单位，而浅缓冲交换机（如Spectrum以太网交换机）的缓冲区大小以兆字节（MB）为单位。深度缓冲交换机最初是为不同的目的而设计的，例如路由和广域网；因此，与传统的浅缓冲以太网交换机相比，它们具有非常不同的体系结构。深度缓冲交换机系统通常采用模块化设计，其特点是装有线路卡的大型机箱交换机。

虽然深度缓冲交换机功能丰富，支持数据中心互联（DCI）和电信网络所需的规模，但它们并未针对人工智能网络进行优化。深缓冲交换机可容纳额外的数据流量，对微突发不太敏感，但更大的数据容量会导致更高的尾部延迟，从而导致平均延迟增加和高抖动。这直接影响了依赖于最坏情况延迟的人工智能工作负载，导致更长的作业完成时间和增加的培训时间。

网络链路故障恢复能力

InfiniBand交换机配备了独特的自我修复功能。由于这种自我修复的自主性，在发生链路故障的情况下，可以快速纠正通信，从而避免昂贵的重新传输或绝对故障。

与通常在以太网上运行的具有同质流量模式的传统应用程序工作负载不同，人工智能生成的异构流量具有突发性并且对网络故障高度敏感。例如，当从叶子到主干的链路断开时，这会影响多个机架中的多个GPU节点，并显著降低所有对所有的性能。流行的基于以太网的冗余措施（如EVPN多宿主或MLAG）无法解决性能问题。

来源：