新MLPerf推论评比结果出炉，Nvidia GPU搭配Arm服务器效能不输搭配x86服务器最新消息

新MLPerf推论评比结果出炉，Nvidia GPU搭配Arm服务器效能不输搭配x86服务器

消息来源:baojiabao.com 作者: 发布时间：2024-11-28

报价宝综合消息新MLPerf推论评比结果出炉，Nvidia GPU搭配Arm服务器效能不输搭配x86服务器

ML基准测试套件MLPerf最新推论评比在9月22日出炉，最新一轮推论测试共有20个组织参加。

图片来源:

图/MLCommons

ML基准测试套件MLPerf最新推论评比在9月22日出炉。Nvidia首度以GPU搭配不同CPU架构来参加MLPerf Inference v1.1的测试，比较两种组合在6种AI应用中的成效。实际结果显示，搭配Arm架构的A100效能与搭配x86架构相差无几，仅略低于x86架构的效能，但在医疗影像识别评比中，Arm架构效能更胜过x86架构。

MLPerf推论评比共分为6种AI应用，分别是用于推荐的DLRM框架、用于NLP的BERT、用于语音辨识的RNN-T、用于医疗影像辨识的3D U-Net、用于影像分类的ResNet-50 v1.5，以及用于低解析物件侦测的SSD搭配MobileNet-v1、用于高解析物件侦测的SSD搭配ResNet-34。

Nvidia指出，相较于去年MLPerf Inference v0.7的推论评比，A100 GPU在这次v1.1版本的评比中，于各项AI应用的效能均有所提升，尤其在语音识别与医疗影像识别的领域，效能更分别较去年提升了3成与5成。Nvidia AI推论与云端部门的产品经理Dave Salvator指出，这些效能的提升，并非基于硬件的改良，而是来自于软件对于硬件效能的优化。

MLPerf推论评比又可依据在云端或边缘端运算，分为两大评比类别；而在云端资料中心进行推论的类别，又可分为完全无延迟的离线运算（Offline）与低延迟的服务器运算（Server）。在云端资料中心的测试中，若以A30 GPU为基准，来比较单一加速器（Accelerator）的效能，可以发现A100 GPU效能几乎领先了所有加速器。

进一步来看，这次领先的A100 GPU分别搭配了x86架构与Arm架构的CPU。评比结果显示，搭配Arm架构的A100效能仅略低于搭配x86架构的效能，其中在离线的云端推论类别，Arm架构服务器在医疗影像AI的推论效能，更胜过x86架构。

Nvidia在今天发布的部落格指出，全球资料中心正在加速采用Arm架构，因Arm架构具有低耗电、高效率与高效能的优势，还有持续扩展的软件生态系统。在这个趋势下，Nvidia提交Arm架构的A100服务器来参加MLPerf推论评比，评比成果更显示，基于Arm的GPU加速平台，已经准备好处理资料中心的各种AI工作负载。

评比结果显示，搭配Arm架构的A100效能略低于搭配x86架构的效能。

除了在云端推论评比取得领先地位，在边缘端的推论评比上，Nvidia也以A100 PCIe取得了最佳成绩。若以Nvidia嵌入式边缘运算芯片Jetson Xavier NX的效能为基准，可以发现A30与A100 PCIe遥遥领先其他芯片效能，尤其A100 PCIe在医疗影像识别、NLP与高解析物件侦测等推论成效，大幅领先其他芯片。

Dave Salvator也特别强调软件在推论评比中扮演的加速角色。在AI推论上，Nvidia靠深度学习推论软件开发套件Tensor RT来最佳化AI模型，透过稀疏性与量化感知训练两大功能，在不影响推论准确率的情况下，缩减模型权重与精度，来加快模型运算效率。

同时，Nvidia也透过开源推理软件Triton，简化AI模型在生产环境的大规模部署。Dave Salvator解释，Triton主要可以自动化基础架构的管理，具有弹性化扩展（auto scaling）及负载均衡（Load balancing）两大功能，尤其将AI模型部署到推论环境中执行时，对于运算资源的需求可能突然来到高峰，若运算资源已经饱和，就会延长模型推论时间。但透过Triton，当运算需求突然增加时，可以自动将工作分配到闲置的CPU资源上执行，最佳化利用CPU或GPU，来加速模型推论。

Dave Salvator也揭露一张图表，比较使用Triton来部署AI模型，以及透过客制化程式码来部署AI模型的效能差异。Nvidia指出，使用Triton的A100推论效率，可以达到客制化程式码的93%，使用Triton的A30更可达到与客制化程式码相同的成效。

在这项推论评比中，Nvidia也运用多实例GPU（Multiple Instance GPU，MIG）来进行评比，MIG可以将每个A100 GPU最多分为七个执行实例，各自独立且具备个别的内存、快取和运算核心，来执行不同的AI工作负载。由于MLPerf推论评比只有六项应用，Nvidia还多执行了一个影像分类的AI应用，将7项应用同时在A100中执行。得到的结果是，每项工作负载的推论效能均达到独立执行的95%。Dave Salvator指出，能达到这个成果，Triton功不可没，因为Triton可以让不同框架的多个模型同时在单一GPU或CPU上执行，而不需增加额外的程式码。

2021-09-23 11:47:00

新MLPerf推论评比结果出炉，Nvidia GPU搭配Arm服务器效能不输搭配x86服务器

品牌选车