APP下载

Nvidia新一代AI超级电脑系统DGX A100亮相,搭载8张全新7奈米GPU加速卡,单台效能更翻倍可达5 PetaFLOPS

消息来源:baojiabao.com 作者: 发布时间:2024-09-13

报价宝综合消息Nvidia新一代AI超级电脑系统DGX A100亮相,搭载8张全新7奈米GPU加速卡,单台效能更翻倍可达5 PetaFLOPS

虽然延后快两个月,在今天线上举行GTC大会主题演讲上,Nvidia一连推出不少整合GPU的新产品,其中拥有多达5 PetaFLOPS的AI超级电脑系统DGX A100的推出,最受各界瞩目。

图片来源: 

Nvidia

Nvidia今天(14日)推出采用全新Tesla A100 GPU打造的新一代AI超级电脑系统DGX A100,运算效能更翻倍可达到5 PetaFLOPS,但只要前一代DGX-2的一半价格,单台售价只要19.9万美元起(约新台币600万元),未来将能用于企业资料中心,协助其打造AI训练和推论执行所需加速运算环境。

Nvidia自2016年起,每隔两年便翻新一代AI超级电脑DGX产品,以因应资料中心每年对于AI加速运算、HPC高效能运算需求的大量增长。在今日一场线上GTC大会主题演讲上, Nvidia首席执行官黄仁勋一如往年发表DGX产品线新一代产品DGX A100,也是继DGX-1、DGX-2之后,Nvidia最新推出的第3代DGX产品。

早在主题演讲前两天,就有一段黄仁勋从家里烤箱热腾腾端出超大型GPU运算卡的短片在网络疯传,短时间就吸引40万人点阅。当时影片中的机器,正是这台DGX A100,黄仁勋在今天大会中强调:“它是世上最大的GPU加速运算卡。”这不单指它的体积、重量,更强调其在AI运算加速的效能,更甚以往几代。

有别于前一代DGX产品,该公司替这代DGX A100系统,一次装进8张Tesla A100 GPU加速卡,与合计320GB HBM2内存,并以NVSwitch光纤互连。虽然,新系统配备的GPU张数仅有前代一半 ,但靠着翻新GPU架构与制程技术,采用效能更高的Tesla A100 GPU,使其运算效能可达到5 PetaFLOPS (每秒千兆次浮点运算),相较之下,还比原来采用16张Tesla V100 GPU的DGX-2更高,其效能仅有2 petaFLOPS。

Tesla A100 GPU也是Nvidia首款以7奈米Ampere新架构推出的GPU加速器产品,内含有高达540亿颗晶体管。在这颗GPU内,还内建第3代Tensor GPU的AI运算核心,多达432个Tensor cores,在深度学习模型训练,推论执行方面,都比前一代Volta架构GPU足足高出20倍之多。

值得一提的是,这代CPU首次改用AMD的服务器CPU,取代前面二代使用的英特尔Xeon系列处理器,DGX A100搭配的是两颗最新64核Rome服务器处理器,并可容纳最多1TB的内存容量,以加快资料存取的反应速度。

在对内GPU互连上,新款DGX A100运算主机,除了能以6个NVSwitch光纤互连架构,提供多达每秒4.8 TB的双向带宽,每颗GPU之间的带宽亦提高到了600GB/s。另针对网络连接界面,该款设备也使用最近刚完成并购成为旗下网络品牌的Mellanox产品,能提供9个200Gb/s的Mellanox ConnectX-6 HDR高速网络界面,总带宽可达3.6Tbps的传输能力。至于储存方面也有所升级,采用高速储存的第4代NVMe SSD阵列,并提供最多15TB容量用于内部储存。

另外,这台机器本身还提供多个软件堆叠或工具,可用于加速AI运算的使用,包括了Spark3.0、CUDA加速函式库RAPIDS、Triton ,以及常用DL开发框架如TensorFlow、PyTorch等。

Nvidia举例,原来要打造一座现代化AI资料中心,用于ML模型训练与AI推论,需要数十台的DGX-1搭配上百颗的服务器CPU,光是初期建置成本,就高达1千1百万美元,现在改用DGX A100的话,只须一个服务器机柜,装进5台DGX A100,就能达到同样的用途,用于资料分析、AI加速运算,而且费用只有原来十分之一,空间和能耗也更省。

同一场合,Nvidia还发表以140台DGX A100打造拥有700 PetaFLOPS运算能力的DGX SuperPOD超级运算丛集节点,效能更远远高于TOP500超级电脑第一名,目前排名第一的超级电脑Summit的运算效能达到148.6 PetaFLOPS。而这代DGX SuperPOD还比它多出快5倍,甚至还可以扩充到最多4个SuperPOD节点建立运算丛集,其运算能力更高达2.8 ExaFLOPS 。

DGX A100目前已开始于全球出货,每台售价19.9万美元起。并已有美国能源部的阿贡国家实验室先采用,其他早期采用者,不少是国家研究机构或AI实验室,像是德国DFKI研究中心、UAE人工智能办公室等,另外也有一些AI公司如Element AI、Harrison.ai等未来也要用。

2020-05-15 06:50:00

相关文章