APP下载

Nvidia释出TensorRT 8强化大型语言模型推理

消息来源:baojiabao.com 作者: 发布时间:2024-10-10

报价宝综合消息Nvidia释出TensorRT 8强化大型语言模型推理

Nvidia推出TensorRT 8,这是最新的人工智能软件开发工具包,能加速搜索引擎、广告推荐、聊天机器人等人工智能应用,官方提到,与之前的版本相比,TensorRT 8可缩短一半的语言查询推理时间。

TensorRT是一个包含推理最佳化器和Runtime的高效能深度学习推理SDK,能够提供低延迟和高吞吐量的运算,TensorRT广泛支援各个产业,像是医疗保健、金融服务与制造业等。官方提到,以TensorRT作为基础的应用程序,推理速度比纯CPU平台快了40倍,而在TensorRT 8中,又针对热门的Transformer模型最佳化。

TensorRT 8加速了所有基于Transformer模型的对话式人工智能,使推理时间缩短为TensorRT 7的一半,使用A100 GPU运算,执行具有3.4亿个参数的语言模型BERT-Large,其推理延迟能降低到仅剩1.2秒。

这个TensorRT新版本的更新重点,除了能加速语言模型,在使用Quantization Aware Training时,使用INT8精度就能够实现相当于FP32的精度。另外,稀疏性是Ampere架构GPU的一种效能技术,而在TensorRT 8中,可以利用这项技术减少运算操作,以大幅提高效率。

2021-07-21 19:45:00

相关文章