APP下载

新MLPerf推论评比结果出炉,Nvidia GPU搭配Arm服务器效能不输搭配x86服务器

消息来源:baojiabao.com 作者: 发布时间:2024-11-28

报价宝综合消息新MLPerf推论评比结果出炉,Nvidia GPU搭配Arm服务器效能不输搭配x86服务器

ML基准测试套件MLPerf最新推论评比在9月22日出炉,最新一轮推论测试共有20个组织参加。

图片来源: 

图/MLCommons

ML基准测试套件MLPerf最新推论评比在9月22日出炉。Nvidia首度以GPU搭配不同CPU架构来参加MLPerf Inference v1.1的测试,比较两种组合在6种AI应用中的成效。实际结果显示,搭配Arm架构的A100效能与搭配x86架构相差无几,仅略低于x86架构的效能,但在医疗影像识别评比中,Arm架构效能更胜过x86架构。

MLPerf推论评比共分为6种AI应用,分别是用于推荐的DLRM框架、用于NLP的BERT、用于语音辨识的RNN-T、用于医疗影像辨识的3D U-Net、用于影像分类的ResNet-50 v1.5,以及用于低解析物件侦测的SSD搭配MobileNet-v1、用于高解析物件侦测的SSD搭配ResNet-34。

Nvidia指出,相较于去年MLPerf Inference v0.7的推论评比,A100 GPU在这次v1.1版本的评比中,于各项AI应用的效能均有所提升,尤其在语音识别与医疗影像识别的领域,效能更分别较去年提升了3成与5成。Nvidia AI推论与云端部门的产品经理Dave Salvator指出,这些效能的提升,并非基于硬件的改良,而是来自于软件对于硬件效能的优化。

MLPerf推论评比又可依据在云端或边缘端运算,分为两大评比类别;而在云端资料中心进行推论的类别,又可分为完全无延迟的离线运算(Offline)与低延迟的服务器运算(Server)。在云端资料中心的测试中,若以A30 GPU为基准,来比较单一加速器(Accelerator)的效能,可以发现A100 GPU效能几乎领先了所有加速器。

进一步来看,这次领先的A100 GPU分别搭配了x86架构与Arm架构的CPU。评比结果显示,搭配Arm架构的A100效能仅略低于搭配x86架构的效能,其中在离线的云端推论类别,Arm架构服务器在医疗影像AI的推论效能,更胜过x86架构。

Nvidia在今天发布的部落格指出,全球资料中心正在加速采用Arm架构,因Arm架构具有低耗电、高效率与高效能的优势,还有持续扩展的软件生态系统。在这个趋势下,Nvidia提交Arm架构的A100服务器来参加MLPerf推论评比,评比成果更显示,基于Arm的GPU加速平台,已经准备好处理资料中心的各种AI工作负载。

评比结果显示,搭配Arm架构的A100效能略低于搭配x86架构的效能。

除了在云端推论评比取得领先地位,在边缘端的推论评比上,Nvidia也以A100 PCIe取得了最佳成绩。若以Nvidia嵌入式边缘运算芯片Jetson Xavier NX的效能为基准,可以发现A30与A100 PCIe遥遥领先其他芯片效能,尤其A100 PCIe在医疗影像识别、NLP与高解析物件侦测等推论成效,大幅领先其他芯片。

Dave Salvator也特别强调软件在推论评比中扮演的加速角色。在AI推论上,Nvidia靠深度学习推论软件开发套件Tensor RT来最佳化AI模型,透过稀疏性与量化感知训练两大功能,在不影响推论准确率的情况下,缩减模型权重与精度,来加快模型运算效率。

同时,Nvidia也透过开源推理软件Triton,简化AI模型在生产环境的大规模部署。Dave Salvator解释,Triton主要可以自动化基础架构的管理,具有弹性化扩展(auto scaling)及负载均衡(Load balancing)两大功能,尤其将AI模型部署到推论环境中执行时,对于运算资源的需求可能突然来到高峰,若运算资源已经饱和,就会延长模型推论时间。但透过Triton,当运算需求突然增加时,可以自动将工作分配到闲置的CPU资源上执行,最佳化利用CPU或GPU,来加速模型推论。

Dave Salvator也揭露一张图表,比较使用Triton来部署AI模型,以及透过客制化程式码来部署AI模型的效能差异。Nvidia指出,使用Triton的A100推论效率,可以达到客制化程式码的93%,使用Triton的A30更可达到与客制化程式码相同的成效。

在这项推论评比中,Nvidia也运用多实例GPU(Multiple Instance GPU,MIG)来进行评比,MIG可以将每个A100 GPU最多分为七个执行实例,各自独立且具备个别的内存、快取和运算核心,来执行不同的AI工作负载。由于MLPerf推论评比只有六项应用,Nvidia还多执行了一个影像分类的AI应用,将7项应用同时在A100中执行。得到的结果是,每项工作负载的推论效能均达到独立执行的95%。Dave Salvator指出,能达到这个成果,Triton功不可没,因为Triton可以让不同框架的多个模型同时在单一GPU或CPU上执行,而不需增加额外的程式码。

2021-09-23 11:47:00

相关文章