APP下载

运算效能突破360 TFLOPS,特斯拉展示全自驾车AI训练芯片Dojo D1

消息来源:baojiabao.com 作者: 发布时间:2024-10-05

报价宝综合消息运算效能突破360 TFLOPS,特斯拉展示全自驾车AI训练芯片Dojo D1
图片来源: 

Tesla

不让Nvidia、Google专美于前,在今年Tesla  AI Day活动上,美国电动车大厂特斯拉(Tesla)展现自家最新自驾车应用同时,首度公开揭露一款自制AI训练芯片Dojo D1,强调拥有GPU的强大运算力,更兼具CPU的运用弹性,以及超高速传输带宽,甚至在AI算力表现也优于Google的TPU v3,可提供362 TFLOPS运算效能,特斯拉不只用它加速AI训练建立全自动驾驶汽车,未来也将作为首款人型机器人Tesla Bot的AI训练使用。

这颗自驾车AI芯片D1 ,是由Tesla工程团队一手开发完成,从芯片架构、制作到封装,采用先进7奈米制程,其内含高达500亿个晶体管。根据Tesla的介绍,D1处理器芯片是由354个高效能训练节点所组成的,每个训练节点都可视为是一个个运算芯片,每个训练芯片皆采用客制ISA指令集架构设计完成,特别对于ML工作负载执行加以优化,并内含1.25MB高速的SRAM以及低延迟和高带宽的网络fabric,使得单一芯片,在BF16/CFP8测试基准下,其运算效能可达1.024 TFLOPS。

由354个训练节点所组成的D1模组芯片,其运算力更一举达到362 TFLOPS(每秒1兆次浮点运算) ,若以目前市面已知的ML芯片 (TPU v3、GPU(HBM-Links互连)或其他新创ML芯片)性能来做比较,Tesla指出,D1 算力表现还优于其他市面ML芯片,甚至比Google的TPU v3表现都还好。另外这颗处理器本身的热设计功耗(TDP)仅有400瓦,相较之下,TPUv3有达到450瓦。

不只运算效能,Tesla也特别强调这颗AI处理器,在设计上采用新的芯片互连架构,可提供内部高速互连,总带宽可达到每秒40TB的传输能力,而且每个D1芯片,能支援最多576线道,可用于高速I/O应用,跟当前最先进网络交换器相比,Tesla表示,D1芯片可提供高达两倍的传输带宽。

Tesla Dojo专案主要负责人Genesh Venugopa则说:“Dojo D1处理器芯片是一款纯机器学习训练机器,完全专为ML训练和高速带宽而设计。”

不单是自驾车AI训练上会用到,Tesla首席执行官马斯克在会中也透露,明年将展示一款人型机型人原型Tesla bot,也将运用到这颗AI训练芯片,做为机器人AI训练来使用。他表示,Tesla是世上最大的机器人公司,“因为我们的汽车就像装了轮子的半感知机器人(semi-sentient robot) ,所以运用到人型机器人也说得通。”

Genesh Venugopa表示,该研究团队最新还以约1,500个D1芯片互连打造一套ML训练引擎系统,称为训练瓦片 (Training Tile),每个Training Tile系统,可提供运算效能更高,达到9 petaFLOPS,等于是一台AI超级电脑。目前他们已完成一台Training Tile原型。

为了打造这套AI训练系统,研究团队费尽心思,不仅设计Dojo界面处理器作为host bridge,用于与PCIe Gen4的连接,还加入高速带宽的DRAM共享内存,并以Radix网络连接建立低延迟Mesh架构。另在电源方面,则重新客制一个电力调整器模组,搭配52 伏特直流电输入,可以做到更省功耗,更省电。不只硬件,在软件面向,他们也结合了DPU (Dojo Processing Unit)、Dojo Compiler Engine、Neural Net models等软件套件,建立完整软件堆叠,借此来实现AI运算规模化。

接下来,他们还要以120个Training Tile系统建立一个超大型ExaPOD运算丛集,其运算效能更可达1.1 ExaFLOPS (每秒一百万兆次运算),并可提供多达每秒36TB对外高速带宽。待完成以后,Genesh Venugopa表示,它将是世上最快的AI训练超级电脑,预期在相同成本下,可提供多4倍效能,而且更省电,每瓦效能将能提升1.3倍之多,未来将用于加速自驾车AI训练,建立特斯发全自驾系统。

2021-08-30 11:45:00

相关文章