新华三智算中心解决方案铸就 AIGC 算网基石

消息来源:baojiabao.com 作者: 发布时间：2024-11-02

报价宝综合消息新华三智算中心解决方案铸就 AIGC 算网基石

AIGC 与 ChatGPT 简介

随着人工智能技术的不断发展，分析式 AI 技术持续迭代积累，带来了生成式 AI 的突破，生成式人工智能技术（AIGC）在原本数据分析的基础上，通过学习数据的产生模式，可以创造出新的样本数据。在此背景下，2022 年 11 月底，OpenAI 发布了集代码创作、文本撰写、翻译等功能于一体的 ChatGPT 模型。ChatGPT 是在 GPT-3 大模型基础之上演化而来，但由于 GPT-3 存在偏见歧视及安全性风险以及生成内容不符合人类的偏好的问题，所以 ChatGPT 利用了 RLHF 方法（人类反馈强化学习）来提升效果，使得对话更符合人类偏好。因此，它被广泛应用于各种场景，包括程序生成、数据分析、内容创作等，而且有较高的认可度和关注度。

AIGC 对基础设施的挑战

基础模型（基于大规模数据集和大规模算力训练的大型预训练模型）具备通用性和性能方面优势，已成为 AI 能力基座。以 ChatGPT 为例，其根基还是在通用基础大模型底座 GPT-3 上。训练超大基础模型需要多方面的关键技术作为支撑，算法、算力和数据是 AI 发展的三驾马车，算法依赖大模型参数的提升以及模型本身的优化，而算力和数据则需要依赖传统的 GPU 服务器、存储以及网络来实现相互交融并正反馈于算法本身。

首先，我们来看大模型训练对 AI 算力的需求。伴随大模型的不断升级，模型训练对算力需求也不断增加，约每过 3 个月就会翻一倍。GPT-3 模型（1750 亿参数、45TB 训练语料、消耗算力 3640PFlops / s-Days），PaLM 模型（5400 亿参数、2.5 亿个数据集、消耗算力 29600 PFlops / s-Days）。ChatGPT 按照 1300 万 / 天的访问量，估算需要 3 万 + GPU。

其次，大模型训练对数据存储也提出了严苛要求。训练过程中会面临显存墙问题（模型是否能跑起来）以及计算 / 通信墙问题（能否在合理时间内完成训练）。单从显存占用角度来看，单卡 80G 显存理论支持 25 亿参数的模型训练（不做 ZeRO 极端优化），但考虑实际训练时间、数据规模和迭代轮次，需要在数据并行、模型并行和流水线并行之间进行权衡，需要投入更多的 GPU 卡来满足训练对显存的占用。与此同时，需要对数据集进行本地缓存来加速数据访问（尤其是图像），对存储的性能提出了更高的要求。

最后就是高性能网络方面。大模型训练集群往往采用混合并行（模型并行 + 数据并行 + 流水并行）的方式进行训练，GPU 集群从存储集群拉去样本数据、GPU 节点之间的参数交互，这两个数据传输的流程都需要高性能、低延时的网络作为基础。

新华三智算中心全栈解决方案能力

新华三基于对 AIGC 全流程技术需求的深刻理解，推出了智算中心全栈解决方案，依靠 MLOps、数据管理、版本化管理以及弹性架构等优势，可为广大互联网用户提供业界最全最细致的 AI 支撑能力。

一、基于绿洲数据平台可以提供数据全流水线管理能力，配合傲飞智算平台可以支持从训练到推理的全生命周期流水线，提供精细化的自动化数据处理以及精细化的模型性能监控调优。

整个 AI 集群的运转过程可以大致用上图概括：①数据采集 →②数据治理 →③数据目录 →④数据标注 →⑤算法开发 →⑥模型训练 →⑦模型管理 →⑧模型推理。其中①②③是由数据平台提供相应能力，后续的一系列流程则需要智算平台进行支撑。值得一提的是，傲飞智算平台可以通过相关性能指标（模型准确率 / GPU 内存占用 / 模型大小 / 吞吐量 / 延时）进行模型量化：解释在模型调优过程中，数据的变化以及算法的变化，从而使得 AI 任务端到端可视化。

二、算力基础设施层作为整个 AI 集群的执行点，需要 GPU 计算、网络以及存储等产品的全方位支撑，结合 AI 集群的运转流程，其整体架构如下所示：

该架构整体上分为 3 个区域：数据资源区、智算训练区以及智算推理区。从数据采集到数据标注均在数据资源完成，而模型训练、模型管理以及模型推理则在另外两个区域完成。数据资源区与智算训练区需要用高性能网络作 FullMesh 互联，智算训练区的不同 GPU 节点同样需要 FullMesh 互联。接下来我们依次看下新华三全面的基础设施能力：

智算训练集群

组建训练集群的服务器大多使用搭载专用 GPU 模组的标准机，如 H3C UniServer R5500 G5。H3C UniServer R5500 G5 支持 Intel Whitley 平台和 AMD Milan 双平台，最多可以提供 128 个 CPU 核心，可最大程度满足训练集群的 CPU 算力需求。

训练集群将预训练数据集拉取到本地后需要先存储到 NVMe SSD 里，基于 GDS（GDS, GPU Direct Storage），可以通过 PCIe Switch 将 NVMe SSD 里的数据直接读取到 GPU 显存里。

GPU 在训练过程中会进行频繁通信，包括 P2P 通信（1 对 1）和 Collective 通信（1 对多或多对多）。在节点内，GPU 之间的通信互联带宽可达 400GB / s。在节点之间，GPU 通信使用 RDMA 网络，通过 GDR（GDR, GPU Direct RDMA）技术支持，RDMA 网卡可以绕过 CPU、内存，直接从远端节点读取数据到 GPU 显存。

根据数据集、模型大小的不同，会产生多种训练方式，比如数据并行、模型并行、流水线并行、混合并行等。根据训练方式的不同，训练集群的 GPU 节点也会进行对应的拆分、组合。为了最大程度复用训练集群资源，在选型时需要保证拓扑均衡的服务器系统架构，一般 NVMe 硬盘：PCIe Switch：RDMA 网卡需要满足 4:4:4 或 8:4:8 的配比关系；此外，在集群组网时，推荐使用 FullMesh 的网络架构。

H3C UniServer R5500 G5 最大支持 12 个 U.2 NVMe SSD（8 个支持 GDS）、10 个 X16 网卡（8 个支持 GDR），可灵活支持 4 张 NVMe SSD / 网卡或 8 张 NVMe SSD / 网卡的配置，当前均有方案在客户侧落地。

一些大型互联网公司还会使用自研 GPU Box 搭配计算节点的方式组建训练集群，GPU Box 里面会搭载专用 GPU 模组或其他厂商的 OAM 模组。OAM（OAM, OCP Accelerator Module）是开源的 GPU 模块，由 OCP 社区服务器项目组下的 OAI（OAI, Open Accelerator Infrastructure）小组开发并制定标准。

OAM 包括 GPU 和 UBB，UBB（UBB, Universal Baseboard）是承载 GPU 的基板，可以在服务器整机中兼容不同厂家的 GPU。新华三是 OAI 2.0 规范制定的重要参与者，并计划后续在 R5500 G6 上开发可支持不同厂家 GPU 的 OAM 模组。

在 2023 年初，新华三发布了新一代 GPU 机型 R5500 G6，支持 Intel Eagle Stream 和 AMD Genoa 平台，PCIe 5.0 及 400GE 网络的加持，相信会给客户带来更高的算力提升。

智算推理集群

GPU 推理集群的规模主要取决于业务预期的并发请求，一般会多机多卡多实例部署。针对大规模推理场景，H3C UniServer R5300 G5 支持多种类型的 GPU 方案，包括 4 PCIe GPU 方案、8 PCIe GPU 方案和 16 PCIe GPU 方案，以应对不同客户不同算力的推理集群搭建需求。

在 2022 年 11 月份，新华三发布了基于 AMD Genoa 平台的 GPU 服务器 R5350 G6，可实现 90% 的 CPU 性能提升和 50% 的内核数量提升；多种类型人工智能加速卡的支持，可应对人工智能不同场景下对异构算力的需求。此外，在 2023 年上半年，新华三还会发布基于 Intel Eagle Stream 平台的 GPU 服务器 R5300 G6，请大家拭目以待。

高性能存储

高性能存储一般采用分布式并行文件存储，如新华三 CX 系列存储。新华三 CX 系列存储采用全对称分布式架构，结合 IBM Spectrum Scale（原名 GPFS, General Parallel File System），可提供高带宽、低延时的存储服务。

高性能网络

新华三提供了多种可选的高性能网络方案，以供各用户不同业务场景应用。

1.2 级 Clos TH4+TD4 组网方案，最大提供 1024 个 200G 端口接入能力

2.2 级 Clos TH4+TH4 组网方案，最大提供 4096 个 200G 端口接入能力

以上两种方案均采用了以太网交换机 RoCE 组网方案，可以配合新华三自主研发的 AI-ECN 调优手段进行快速和精确部署。AI-ECN 调优算法模型具有效率高、计算量小的特点，同时支持控制器集中式调优和网络设备分布式本地调优两种模式。例如，在集中式调优模式下，不需要专用的 AI 芯片，使用搭载 Intel XEON-SP 服务器的管控析集群，就可在较大规模网络管理下，开启 ECN 水线调优；在本地模式下，搭载 Intel XEON-D 和 ATOM 的新华三网络交换机，仅以较小的 CPU 开销就可以完成调优。

RoCE 方案是业界常用的 AI 高性能组网方案，除此之外，有些用户还会考虑采用集中式框式设备实现小规模的 AI 组网：

这种组网的优势在于无需部署复杂的无损以太网（PFC / ECN）功能，仅通过一台设备便可以实现 1536 个 200G 端口接入能力。新华三 S125R / CR 系列采用正交 CLOS 无中板设计，业务板与交换板之间采用信元转发，完美得解决了拥塞问题。实际应用场景中，在吞吐和时延等方面表现良好。但是这种组网由于单机框槽位问题，组网规模受限。

为了优化这个问题，新华三继而推出了 DDC（Distributed Disaggregated Chassis，分布式分解结构）解决方案。

简单介绍 DDC 其实就是将框式交换机拆分形成盒式组网，但是盒式交换机之间依旧采用信元交换，采用 JR2C + 双芯片方案最大可支持 3456 个 200G 端口接入能力。DDC 对比 RoCE 在网络性能和网络收敛方面提升明显：ALL2ALL 测试场景中，DDC 完成时间可提高 20-30%；无论 UP / DOWN 还是手工插拔测试方式，DDC 的收敛时间缩短了几百到上千倍。

随着大模型训练所需网络带宽的不断提升，网络主芯片性能也会迅速增加，当 800G / 1.6T 时代来临时，CPO / NPO 交换机将会登上互联网舞台，而新华三也早已有所布局：

S9825-32D32DO 交换机，4U 高度内可同时支持 32 个 400G 光模块接口和 32 个 400G 光引擎接口，后续可以平滑升级至 51.2T 平台。

结语

以 ChatGPT 为代表的 AIGC 已经成为当下互联网行业的风口，历史经验表明，善于抓住风口的企业最终都会站上时代之巅。在 AIGC 领域新华三已经与诸多头部互联网客户达成深度合作，新华三希望成为互联网客户紧密的合作伙伴，通过全栈的智算中心解决方案能力助力广大用户的 AIGC 相关研发和推进！

2023-02-24 15:42:56