APP下载

新华三智算中心解决方案铸就 AIGC 算网基石

消息来源:baojiabao.com 作者: 发布时间:2024-11-24

报价宝综合消息新华三智算中心解决方案铸就 AIGC 算网基石

AIGC 与 ChatGPT 简介

随着人工智能技术的不断发展,分析式 AI 技术持续迭代积累,带来了生成式 AI 的突破,生成式人工智能技术(AIGC)在原本数据分析的基础上,通过学习数据的产生模式,可以创造出新的样本数据。在此背景下,2022 年 11 月底,OpenAI 发布了集代码创作、文本撰写、翻译等功能于一体的 ChatGPT 模型。ChatGPT 是在 GPT-3 大模型基础之上演化而来,但由于 GPT-3 存在偏见歧视及安全性风险以及生成内容不符合人类的偏好的问题,所以 ChatGPT 利用了 RLHF 方法(人类反馈强化学习)来提升效果,使得对话更符合人类偏好。因此,它被广泛应用于各种场景,包括程序生成、数据分析、内容创作等,而且有较高的认可度和关注度。

AIGC 对基础设施的挑战

基础模型(基于大规模数据集和大规模算力训练的大型预训练模型)具备通用性和性能方面优势,已成为 AI 能力基座。以 ChatGPT 为例,其根基还是在通用基础大模型底座 GPT-3 上。训练超大基础模型需要多方面的关键技术作为支撑,算法、算力和数据是 AI 发展的三驾马车,算法依赖大模型参数的提升以及模型本身的优化,而算力和数据则需要依赖传统的 GPU 服务器、存储以及网络来实现相互交融并正反馈于算法本身。

首先,我们来看大模型训练对 AI 算力的需求。伴随大模型的不断升级,模型训练对算力需求也不断增加,约每过 3 个月就会翻一倍。GPT-3 模型(1750 亿参数、45TB 训练语料、消耗算力 3640PFlops / s-Days),PaLM 模型(5400 亿参数、2.5 亿个数据集、消耗算力 29600 PFlops / s-Days)。ChatGPT 按照 1300 万 / 天的访问量,估算需要 3 万 + GPU。

其次,大模型训练对数据存储也提出了严苛要求。训练过程中会面临显存墙问题(模型是否能跑起来)以及计算 / 通信墙问题(能否在合理时间内完成训练)。单从显存占用角度来看,单卡 80G 显存理论支持 25 亿参数的模型训练(不做 ZeRO 极端优化),但考虑实际训练时间、数据规模和迭代轮次,需要在数据并行、模型并行和流水线并行之间进行权衡,需要投入更多的 GPU 卡来满足训练对显存的占用。与此同时,需要对数据集进行本地缓存来加速数据访问(尤其是图像),对存储的性能提出了更高的要求。

最后就是高性能网络方面。大模型训练集群往往采用混合并行(模型并行 + 数据并行 + 流水并行)的方式进行训练,GPU 集群从存储集群拉去样本数据、GPU 节点之间的参数交互,这两个数据传输的流程都需要高性能、低延时的网络作为基础。

新华三智算中心全栈解决方案能力

新华三基于对 AIGC 全流程技术需求的深刻理解,推出了智算中心全栈解决方案,依靠 MLOps、数据管理、版本化管理以及弹性架构等优势,可为广大互联网用户提供业界最全最细致的 AI 支撑能力。

一、基于绿洲数据平台可以提供数据全流水线管理能力,配合傲飞智算平台可以支持从训练到推理的全生命周期流水线,提供精细化的自动化数据处理以及精细化的模型性能监控调优。

整个 AI 集群的运转过程可以大致用上图概括:①数据采集 →②数据治理 →③数据目录 →④数据标注 →⑤算法开发 →⑥模型训练 →⑦模型管理 →⑧模型推理。其中①②③是由数据平台提供相应能力,后续的一系列流程则需要智算平台进行支撑。值得一提的是,傲飞智算平台可以通过相关性能指标(模型准确率 / GPU 内存占用 / 模型大小 / 吞吐量 / 延时)进行模型量化:解释在模型调优过程中,数据的变化以及算法的变化,从而使得 AI 任务端到端可视化。

二、算力基础设施层作为整个 AI 集群的执行点,需要 GPU 计算、网络以及存储等产品的全方位支撑,结合 AI 集群的运转流程,其整体架构如下所示:

该架构整体上分为 3 个区域:数据资源区、智算训练区以及智算推理区。从数据采集到数据标注均在数据资源完成,而模型训练、模型管理以及模型推理则在另外两个区域完成。数据资源区与智算训练区需要用高性能网络作 FullMesh 互联,智算训练区的不同 GPU 节点同样需要 FullMesh 互联。接下来我们依次看下新华三全面的基础设施能力:

智算训练集群

组建训练集群的服务器大多使用搭载专用 GPU 模组的标准机,如 H3C UniServer R5500 G5。H3C UniServer R5500 G5 支持 Intel Whitley 平台和 AMD Milan 双平台,最多可以提供 128 个 CPU 核心,可最大程度满足训练集群的 CPU 算力需求。

训练集群将预训练数据集拉取到本地后需要先存储到 NVMe SSD 里,基于 GDS(GDS, GPU Direct Storage),可以通过 PCIe Switch 将 NVMe SSD 里的数据直接读取到 GPU 显存里。

GPU 在训练过程中会进行频繁通信,包括 P2P 通信(1 对 1)和 Collective 通信(1 对多或多对多)。在节点内,GPU 之间的通信互联带宽可达 400GB / s。在节点之间,GPU 通信使用 RDMA 网络,通过 GDR(GDR, GPU Direct RDMA)技术支持,RDMA 网卡可以绕过 CPU、内存,直接从远端节点读取数据到 GPU 显存。

根据数据集、模型大小的不同,会产生多种训练方式,比如数据并行、模型并行、流水线并行、混合并行等。根据训练方式的不同,训练集群的 GPU 节点也会进行对应的拆分、组合。为了最大程度复用训练集群资源,在选型时需要保证拓扑均衡的服务器系统架构,一般 NVMe 硬盘:PCIe Switch:RDMA 网卡需要满足 4:4:4 或 8:4:8 的配比关系;此外,在集群组网时,推荐使用 FullMesh 的网络架构。

H3C UniServer R5500 G5 最大支持 12 个 U.2 NVMe SSD(8 个支持 GDS)、10 个 X16 网卡(8 个支持 GDR),可灵活支持 4 张 NVMe SSD / 网卡或 8 张 NVMe SSD / 网卡的配置,当前均有方案在客户侧落地。

一些大型互联网公司还会使用自研 GPU Box 搭配计算节点的方式组建训练集群,GPU Box 里面会搭载专用 GPU 模组或其他厂商的 OAM 模组。OAM(OAM, OCP Accelerator Module)是开源的 GPU 模块,由 OCP 社区服务器项目组下的 OAI(OAI, Open Accelerator Infrastructure)小组开发并制定标准。

OAM 包括 GPU 和 UBB,UBB(UBB, Universal Baseboard)是承载 GPU 的基板,可以在服务器整机中兼容不同厂家的 GPU。新华三是 OAI 2.0 规范制定的重要参与者,并计划后续在 R5500 G6 上开发可支持不同厂家 GPU 的 OAM 模组。

在 2023 年初,新华三发布了新一代 GPU 机型 R5500 G6,支持 Intel Eagle Stream 和 AMD Genoa 平台,PCIe 5.0 及 400GE 网络的加持,相信会给客户带来更高的算力提升。

智算推理集群

GPU 推理集群的规模主要取决于业务预期的并发请求,一般会多机多卡多实例部署。针对大规模推理场景,H3C UniServer R5300 G5 支持多种类型的 GPU 方案,包括 4 PCIe GPU 方案、8 PCIe GPU 方案和 16 PCIe GPU 方案,以应对不同客户不同算力的推理集群搭建需求。

在 2022 年 11 月份,新华三发布了基于 AMD Genoa 平台的 GPU 服务器 R5350 G6,可实现 90% 的 CPU 性能提升和 50% 的内核数量提升;多种类型人工智能加速卡的支持,可应对人工智能不同场景下对异构算力的需求。此外,在 2023 年上半年,新华三还会发布基于 Intel Eagle Stream 平台的 GPU 服务器 R5300 G6,请大家拭目以待。

高性能存储

高性能存储一般采用分布式并行文件存储,如新华三 CX 系列存储。新华三 CX 系列存储采用全对称分布式架构,结合 IBM Spectrum Scale(原名 GPFS, General Parallel File System),可提供高带宽、低延时的存储服务。

高性能网络

新华三提供了多种可选的高性能网络方案,以供各用户不同业务场景应用。

1.2 级 Clos TH4+TD4 组网方案,最大提供 1024 个 200G 端口接入能力

2.2 级 Clos TH4+TH4 组网方案,最大提供 4096 个 200G 端口接入能力

以上两种方案均采用了以太网交换机 RoCE 组网方案,可以配合新华三自主研发的 AI-ECN 调优手段进行快速和精确部署。AI-ECN 调优算法模型具有效率高、计算量小的特点,同时支持控制器集中式调优和网络设备分布式本地调优两种模式。例如,在集中式调优模式下,不需要专用的 AI 芯片,使用搭载 Intel XEON-SP 服务器的管控析集群,就可在较大规模网络管理下,开启 ECN 水线调优;在本地模式下,搭载 Intel XEON-D 和 ATOM 的新华三网络交换机,仅以较小的 CPU 开销就可以完成调优。

RoCE 方案是业界常用的 AI 高性能组网方案,除此之外,有些用户还会考虑采用集中式框式设备实现小规模的 AI 组网:

这种组网的优势在于无需部署复杂的无损以太网(PFC / ECN)功能,仅通过一台设备便可以实现 1536 个 200G 端口接入能力。新华三 S125R / CR 系列采用正交 CLOS 无中板设计,业务板与交换板之间采用信元转发,完美得解决了拥塞问题。实际应用场景中,在吞吐和时延等方面表现良好。但是这种组网由于单机框槽位问题,组网规模受限。

为了优化这个问题,新华三继而推出了 DDC(Distributed Disaggregated Chassis,分布式分解结构)解决方案。

简单介绍 DDC 其实就是将框式交换机拆分形成盒式组网,但是盒式交换机之间依旧采用信元交换,采用 JR2C + 双芯片方案最大可支持 3456 个 200G 端口接入能力。DDC 对比 RoCE 在网络性能和网络收敛方面提升明显:ALL2ALL 测试场景中,DDC 完成时间可提高 20-30%;无论 UP / DOWN 还是手工插拔测试方式,DDC 的收敛时间缩短了几百到上千倍。

随着大模型训练所需网络带宽的不断提升,网络主芯片性能也会迅速增加,当 800G / 1.6T 时代来临时,CPO / NPO 交换机将会登上互联网舞台,而新华三也早已有所布局:

S9825-32D32DO 交换机,4U 高度内可同时支持 32 个 400G 光模块接口和 32 个 400G 光引擎接口,后续可以平滑升级至 51.2T 平台。

结语

以 ChatGPT 为代表的 AIGC 已经成为当下互联网行业的风口,历史经验表明,善于抓住风口的企业最终都会站上时代之巅。在 AIGC 领域新华三已经与诸多头部互联网客户达成深度合作,新华三希望成为互联网客户紧密的合作伙伴,通过全栈的智算中心解决方案能力助力广大用户的 AIGC 相关研发和推进!

2023-02-24 15:42:56

相关文章