智算中心改造：网络成大模型训练瓶颈，节点内外多架构并存

2024-05-12码农

本文来自「」。AI大模型训练和推理拉动智能算力需求快速增长。

a）模型迭代和数量增长拉动AI算力需求增长：从单个模型来看，模型能力持续提升依赖于更大的训练数据量和模型参数量，对应更高的算力需求；从模型的数量来看，模型种类多样化（文生图、文生视频）和各厂商自主模型的研发，均推动算力需求的增长。

b）未来AI应用爆发，推理侧算力需求快速增长：各厂商基于AI大模型开发各类AI应用，随着AI应用用户数量爆发，对应推理侧算力需求快速增长。

智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心，集约化建设的新型数据中心；随着大模型普遍进入万亿规模，算力、显存、互联需求再次升级，高速互联的百卡「超级服务器」可能成为新的设备形态，智算中心将走向超级池化阶段，对设备形态、互联方案、存储、平台、散热等维度提出新的要求。

网络互联：节点内外多方案并存。

1）节点内：私有方案以英伟达NVLink为代表，NVLink已经发展至第五代产品，同时支持576个GPU之间的无缝高速通信；开放技术方案以OAM和UBB为主，OCP组织定义了业内通用的AI扣卡模组形态（OAM）-基板拓扑结构（UBB）设计规范。

2）节点间：主要方案为Infiniband和RoCEv2；Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、Subnet Management（SM）、连接件组成；RoCEv2网络是一个纯分布式的网络，由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。

相关阅读：

转载申明：转载 本号文章请 注明作者 和来源，本号发布文章若存在版权等问题，请留言联系处理，谢谢。

推荐阅读

更多 架构相关技术 知识总结请参考「架构师全店铺技术资料打包 (全) 」相关电子书( 41本 技术资料打包汇总详情 可通过「 阅读原文 」获取)。

全店内容持续更新，现下单「 架构师技术全店资料打包汇总(全) 」一起发送「」和「」 pdf及ppt版本，后续可享全店内容更新「免费」赠阅，价格仅收 249 元(原总价 399 元)。

温馨提示：

扫描 二维码 关注公众号，点击 阅读原文 链接获取「 架构师技术全店资料打包汇总(全) 」电子书资料详情。