Nvidia
前阵子,Nvidia才揭露今年GTC大会上的创办人黄仁勋演讲,有14秒是“虚拟的”。最近,Nvidia应用深度学习研究部门副总裁Bryan Catanzaro亲自上线说明,GTC大会中穿插的旁白,也大多是虚拟合成的声音。
他盘点了近年来Nvidia对话式AI的成果,像是轻量语音合成模型、高效能语音分析模型、降噪模型、语音资料集,其中,语音合成模型不只能细致地呈现音高、腔调和节奏,还能转换声音。这是Nvidia首次公开揭露语音合成技术进展。
GTC大会上穿插的AI旁白
自2017年开始,Nvidia就在GTC大会上启用AI语音旁白I am AI,来介绍大会议程或技术应用。不过,刚启用的那几年,AI旁白还是有着生硬的机器人口音。
直到2020年上半年,Nvidia研究团队成功打造出AI语音合成系统Flowtron,才一改机器人的生硬口音,变得更像一个有感情的真人。Flowtron中有套关键的文字转语音模型RAD-TTS,不只能产生语音,还能转换语音风格。在设计过程中,团队借镜了语音合成中的重要技术自回归流(Autoregressive Flow)概念,并以此改善Google发表的经典语音合成模型Tacotron,来提高语音合成品质。
比如,RAD-TTS能更好地控制音高、音调、语速、节奏和口音,甚至能转换声音。也就是说,画面上虽然是A男说话(甚至是唱歌),但AI能立即转换为B女的声音,而且栩栩如生保留了A男说话的腔调、节奏和速度等特征。
如此一来,使用者可录制自己读出的影片脚本,再用Flowtron将说话内容改变为不同性别的声音。此外,使用者也可透过系统调整合成语音,来强调特定字眼或放慢节奏,搭配影片调性。Bryan Catanzaro指出,这个AI模型不只用于配音,还能用在游戏、协助语言机能障碍者理解,甚至能以使用者自己的声音,翻译成不同语言。
不只是AI旁白,Nvidia对话式AI研究还聚焦多种领域
不过,AI旁白只是Nvidia对话式AI研究领域的一部分。
Bryan Catanzaro表示,Nvidia这几年来钻研对话式AI,包括自动语音辨识(ASR)、音讯增强和降噪、文字转语音、语音合成、音档压缩,甚至是相关资料集的建置、语音合成技术的分支文本正规化(Text normalization)以及建模技术。
他举例,研究团队训练一套轻量级语音生成模型TalkNet 2,参数量只有1,300万,不到时下SOTA模型的二分之一,但因采非自回归架构,能快速训练、准确发音,适合用于嵌入式语音生成的应用场景。
另一个例子则是逆向文本正规化。文本正规化是ASR中不可或缺的技术环节,它将语音辨识结果转换为文字,来提高ASR输出值的可读性。但传统方法对文法错误的容忍度相当低,于是,Nvidia设计一套开源Python WFST函式库,来改善这个问题,同时还能用在语音转文字任务。
另一方面,Nvidia也建置训练语音生成AI所需的资料集,包括高传真英语TTS资料集、5,000小时且完整格式化的金融语音资料集。
除了技术研究,Nvidia也推出不少语音相关工具,其一就是GPU加速的开源对话式AI工具包NeMo,能让使用者快速微调、试验语音模型。NeMo具备API和预训练模型,能用来进行文字转语音、自然语言处理和自动语音辨识等任务,而这些预训练模型,大多已在Nvidia DGX专用系统上进行超过十万小时训练,使用者在Nvidia Tensor核心GPU上微调即可。
另一方面,Nvidia也与Mozilla联手,建置世界上最大的开源语音资料集Common Voice,包含横跨数十种语言共1万3,000小时的群众外包语音资料,已于7月底释出。Nvidia也用这些资料训练NeMo,并免费提供给全球使用者利用。
Bryan Catanzaro坦言,这是Nvidia第一次揭露对话式AI研究进展,也是首次将这些成果,发表在最近举行的INTERSPEECH国际学术会议上。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- 淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款2024-10-01 13:01:28
- 哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰2024-10-01 11:22:38
- 白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时2024-09-27 09:10:44
- 北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑2024-06-28 10:07:40
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步2024-06-28 09:27:13
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
- 科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15