APP下载

AWS推出搭载机器学习训练Gaudi加速器的EC2执行个体DL1

消息来源:baojiabao.com 作者: 发布时间:2024-09-30

报价宝综合消息AWS推出搭载机器学习训练Gaudi加速器的EC2执行个体DL1

AWS推出新的DL1执行个体dl1.24xlarge,该执行个体使用由Habana Labs所开发的Gaudi加速器,适合用于深度学习应用。

每个DL1执行个体搭载8个Gaudi加速器,总共拥有256 GB高带宽加速器内存,支援远端直接内存存取(RDMA)技术,能够与加速器高速通讯。dl1.24xlarge执行个体拥有768 GB的系统内存,足够在内存中留存非常大的训练资料集,符合使用者的需求。

本地储存则有高达4 TB的本地端NVMe存储,使用英特尔Cascade Lake处理器具有96个vCPU,并且提供400 Gbps的网络吞吐量,官方提到,在DL1执行个体上,他们尽可能在各方面提高规格,目的是要提供一个功能强大的机器学习训练平台,性价比高出当前GPU执行个体40%。

由于Gaudi加速器是针对机器学习训练所设计,因此支援一些特定的运算功能,像是能够处理BF16和FP32浮点数,以及有符号整数INT8、INT16和INT32,还有无符号整数UINT8、UINT16和UINT32格式的资料。还提供通用矩阵乘法引擎(GEMM),加速矩阵乘法运算。

Gaudi加速器的张量处理核心(TPC),则是特别针对机器学习训练设计的专用超长指令字(VLIW SIMD)处理单元,虽然大多数用户可以使用更高阶的工具和框架,但是TPC好处是可用C语言程式开发。

开发者可以使用TPC程式开发工具,来编写、模拟和储存直接在TPC上运作的程式码,也可以使用Habana通讯函式库,建置跨多个加速器的应用程序。目前DL1执行个体已经在美东北维吉尼亚和美西奥勒冈地区推出。

2021-10-27 16:47:00

相关文章