虚拟黄总还不够，Nvidia新技术连语音都合成得唯妙唯肖最新消息

虚拟黄总还不够，Nvidia新技术连语音都合成得唯妙唯肖

消息来源:baojiabao.com 作者: 发布时间：2024-11-30

报价宝综合消息虚拟黄总还不够，Nvidia新技术连语音都合成得唯妙唯肖

Nvidia自2017年开始，就在GTC大会上启用I am AI人工智能旁白，来说明议程或技术。直到去年上半年，团队开发出一套更细致的AI语音生成系统，终于让AI旁白听起来更像富有感情的真人。

图片来源:

Nvidia

前阵子，Nvidia才揭露今年GTC大会上的创办人黄仁勋演讲，有14秒是“虚拟的”。最近，Nvidia应用深度学习研究部门副总裁Bryan Catanzaro亲自上线说明，GTC大会中穿插的旁白，也大多是虚拟合成的声音。

他盘点了近年来Nvidia对话式AI的成果，像是轻量语音合成模型、高效能语音分析模型、降噪模型、语音资料集，其中，语音合成模型不只能细致地呈现音高、腔调和节奏，还能转换声音。这是Nvidia首次公开揭露语音合成技术进展。

GTC大会上穿插的AI旁白

自2017年开始，Nvidia就在GTC大会上启用AI语音旁白I am AI，来介绍大会议程或技术应用。不过，刚启用的那几年，AI旁白还是有着生硬的机器人口音。

直到2020年上半年，Nvidia研究团队成功打造出AI语音合成系统Flowtron，才一改机器人的生硬口音，变得更像一个有感情的真人。Flowtron中有套关键的文字转语音模型RAD-TTS，不只能产生语音，还能转换语音风格。在设计过程中，团队借镜了语音合成中的重要技术自回归流（Autoregressive Flow）概念，并以此改善Google发表的经典语音合成模型Tacotron，来提高语音合成品质。

比如，RAD-TTS能更好地控制音高、音调、语速、节奏和口音，甚至能转换声音。也就是说，画面上虽然是A男说话（甚至是唱歌），但AI能立即转换为B女的声音，而且栩栩如生保留了A男说话的腔调、节奏和速度等特征。

如此一来，使用者可录制自己读出的影片脚本，再用Flowtron将说话内容改变为不同性别的声音。此外，使用者也可透过系统调整合成语音，来强调特定字眼或放慢节奏，搭配影片调性。Bryan Catanzaro指出，这个AI模型不只用于配音，还能用在游戏、协助语言机能障碍者理解，甚至能以使用者自己的声音，翻译成不同语言。

不只是AI旁白，Nvidia对话式AI研究还聚焦多种领域

不过，AI旁白只是Nvidia对话式AI研究领域的一部分。

Bryan Catanzaro表示，Nvidia这几年来钻研对话式AI，包括自动语音辨识（ASR）、音讯增强和降噪、文字转语音、语音合成、音档压缩，甚至是相关资料集的建置、语音合成技术的分支文本正规化（Text normalization）以及建模技术。

他举例，研究团队训练一套轻量级语音生成模型TalkNet 2，参数量只有1,300万，不到时下SOTA模型的二分之一，但因采非自回归架构，能快速训练、准确发音，适合用于嵌入式语音生成的应用场景。

另一个例子则是逆向文本正规化。文本正规化是ASR中不可或缺的技术环节，它将语音辨识结果转换为文字，来提高ASR输出值的可读性。但传统方法对文法错误的容忍度相当低，于是，Nvidia设计一套开源Python WFST函式库，来改善这个问题，同时还能用在语音转文字任务。

另一方面，Nvidia也建置训练语音生成AI所需的资料集，包括高传真英语TTS资料集、5,000小时且完整格式化的金融语音资料集。

除了技术研究，Nvidia也推出不少语音相关工具，其一就是GPU加速的开源对话式AI工具包NeMo，能让使用者快速微调、试验语音模型。NeMo具备API和预训练模型，能用来进行文字转语音、自然语言处理和自动语音辨识等任务，而这些预训练模型，大多已在Nvidia DGX专用系统上进行超过十万小时训练，使用者在Nvidia Tensor核心GPU上微调即可。

另一方面，Nvidia也与Mozilla联手，建置世界上最大的开源语音资料集Common Voice，包含横跨数十种语言共1万3,000小时的群众外包语音资料，已于7月底释出。Nvidia也用这些资料训练NeMo，并免费提供给全球使用者利用。

Bryan Catanzaro坦言，这是Nvidia第一次揭露对话式AI研究进展，也是首次将这些成果，发表在最近举行的INTERSPEECH国际学术会议上。

2021-09-01 16:49:00