APP下载

虚拟黄总还不够,Nvidia新技术连语音都合成得唯妙唯肖

消息来源:baojiabao.com 作者: 发布时间:2024-11-30

报价宝综合消息虚拟黄总还不够,Nvidia新技术连语音都合成得唯妙唯肖

Nvidia自2017年开始,就在GTC大会上启用I am AI人工智能旁白,来说明议程或技术。直到去年上半年,团队开发出一套更细致的AI语音生成系统,终于让AI旁白听起来更像富有感情的真人。

图片来源: 

Nvidia

前阵子,Nvidia才揭露今年GTC大会上的创办人黄仁勋演讲,有14秒是“虚拟的”。最近,Nvidia应用深度学习研究部门副总裁Bryan Catanzaro亲自上线说明,GTC大会中穿插的旁白,也大多是虚拟合成的声音。

他盘点了近年来Nvidia对话式AI的成果,像是轻量语音合成模型、高效能语音分析模型、降噪模型、语音资料集,其中,语音合成模型不只能细致地呈现音高、腔调和节奏,还能转换声音。这是Nvidia首次公开揭露语音合成技术进展。

GTC大会上穿插的AI旁白

自2017年开始,Nvidia就在GTC大会上启用AI语音旁白I am AI,来介绍大会议程或技术应用。不过,刚启用的那几年,AI旁白还是有着生硬的机器人口音。

直到2020年上半年,Nvidia研究团队成功打造出AI语音合成系统Flowtron,才一改机器人的生硬口音,变得更像一个有感情的真人。Flowtron中有套关键的文字转语音模型RAD-TTS,不只能产生语音,还能转换语音风格。在设计过程中,团队借镜了语音合成中的重要技术自回归流(Autoregressive Flow)概念,并以此改善Google发表的经典语音合成模型Tacotron,来提高语音合成品质。

比如,RAD-TTS能更好地控制音高、音调、语速、节奏和口音,甚至能转换声音。也就是说,画面上虽然是A男说话(甚至是唱歌),但AI能立即转换为B女的声音,而且栩栩如生保留了A男说话的腔调、节奏和速度等特征。

如此一来,使用者可录制自己读出的影片脚本,再用Flowtron将说话内容改变为不同性别的声音。此外,使用者也可透过系统调整合成语音,来强调特定字眼或放慢节奏,搭配影片调性。Bryan Catanzaro指出,这个AI模型不只用于配音,还能用在游戏、协助语言机能障碍者理解,甚至能以使用者自己的声音,翻译成不同语言。

不只是AI旁白,Nvidia对话式AI研究还聚焦多种领域

不过,AI旁白只是Nvidia对话式AI研究领域的一部分。

Bryan Catanzaro表示,Nvidia这几年来钻研对话式AI,包括自动语音辨识(ASR)、音讯增强和降噪、文字转语音、语音合成、音档压缩,甚至是相关资料集的建置、语音合成技术的分支文本正规化(Text normalization)以及建模技术。

他举例,研究团队训练一套轻量级语音生成模型TalkNet 2,参数量只有1,300万,不到时下SOTA模型的二分之一,但因采非自回归架构,能快速训练、准确发音,适合用于嵌入式语音生成的应用场景。

另一个例子则是逆向文本正规化。文本正规化是ASR中不可或缺的技术环节,它将语音辨识结果转换为文字,来提高ASR输出值的可读性。但传统方法对文法错误的容忍度相当低,于是,Nvidia设计一套开源Python WFST函式库,来改善这个问题,同时还能用在语音转文字任务。

另一方面,Nvidia也建置训练语音生成AI所需的资料集,包括高传真英语TTS资料集、5,000小时且完整格式化的金融语音资料集。

除了技术研究,Nvidia也推出不少语音相关工具,其一就是GPU加速的开源对话式AI工具包NeMo,能让使用者快速微调、试验语音模型。NeMo具备API和预训练模型,能用来进行文字转语音、自然语言处理和自动语音辨识等任务,而这些预训练模型,大多已在Nvidia DGX专用系统上进行超过十万小时训练,使用者在Nvidia Tensor核心GPU上微调即可。

另一方面,Nvidia也与Mozilla联手,建置世界上最大的开源语音资料集Common Voice,包含横跨数十种语言共1万3,000小时的群众外包语音资料,已于7月底释出。Nvidia也用这些资料训练NeMo,并免费提供给全球使用者利用。

Bryan Catanzaro坦言,这是Nvidia第一次揭露对话式AI研究进展,也是首次将这些成果,发表在最近举行的INTERSPEECH国际学术会议上。

2021-09-01 16:49:00

相关文章