本文来自「 」。AI大模型训练和推理拉动智能算力需求快速增长。
a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。
b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。
智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡「超级服务器」可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案、存储、平台、散热等维度提出新的要求。
网络互联:节点内外多方案并存。
1)节点内:私有方案以英伟达NVLink为代表,NVLink已经发展至第五代产品,同时支持576个GPU之间的无缝高速通信;开放技术方案以OAM和UBB为主,OCP组织定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范。
2)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、Subnet Management(SM)、连接件组成;RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。
相关阅读:
转载申明:转载 本号文章请 注明作者 和 来源 ,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多 架构相关技术 知识总结请参考「 架构师全店铺技术资料打包 (全) 」相关电子书( 41本 技术资料打包汇总详情 可通过「 阅读原文 」获取)。
全店内容持续更新,现下单「 架构师技术全店资料打包汇总(全) 」一起发送「 」 和「 」 pdf及ppt版本 ,后续可享 全店 内容更新「 免费 」赠阅,价格仅收 249 元(原总价 399 元)。
温馨提示:
扫描 二维码 关注公众号,点击 阅读原文 链接 获取 「 架构师技术全店资料打包汇总(全) 」 电子书资料详情 。