AI趋势周报第177期：深化AI国力，美跨司法、国防、商务部组队给总统与联邦机构建议最新消息

美国商务部成立国家AI咨询委员会，正招募来自产学界AI专家，要给总统和联邦-AI发展策略建议。

图片来源:

屏幕截图

重点新闻(0910～0916)

AI国力 国家AI咨询委员会 竞争力

深化AI国力，美国正组成AI委员会来给总统和联邦机构建议

美国商务部最近宣布成立国家AI咨询委员会（NAIAC），要针对美国AI竞争力现状等一系列议题，来向总统和联邦机构建议。NAIAC是根据美国2020年发布的《国家AI倡议法案》，连结了商务部部长、白宫科技政策办公室、国防部长、能源部长、国务卿、司法部长和国家情报总监共同成立。

NAIAC锁定的AI议题不只有美国AI竞争力现状，还包括落实国家AI计划的程度、AI就业情况和AI伦理等，以及AI可解释性、安全性等。该组织目前正招募来自产学界、联邦实验室和非营利组织的AI专家成员。（详全文）

脸书 语音合成 原始音档

语音合成新成就！脸书新NLP模型不需文本和标签、单靠音档就能合成语音

脸书AI再进击！脸书最近揭露一款生成式语音模型GSLM，单靠原始音档就能合成语音，完全不需要文本资料。脸书直指，这个研究开启了无文本NLP的新时代。

近年来，GPT-3、BERT这类基于文本（Text）的NLP模型带来不少突破，可根据输入文字产生逼真的文本，还能作为预训练模型，让使用者用少量标签或表征（Representation）就能解决多种NLP任务，如情感分析、翻译、摘要生成等。但这类模型有个缺点，也就是只适用于拥有庞大文字资料集的语言。

脸书打造的GSLM可解决这个问题。GSLM透过表征学习来处理原始音档讯号，完全不需文本资料和标签，也不必先打造传统语音合成所需的自动语音辨识ASR系统，就能以原始音档的语音产生新话语。也就是说，即便是没有大量文字资料集的语言，GSLM也能照常生成。

该模型由3大部分组成，一是将原始语音切割为声音单位的编码器，二是用来预测下个单位的语言模型，最后是将声音单位转换为单字的解码器。脸书用6千小时的语音资料集Libri-Light和Librispeech来训练编码器和语言模型，过程中也不用文本资料和标签。脸书将现有的GSLM语音合成成果公开在AI研究院官网上，团队表示，GSLM研究还在持续中，未来将开源程式码，也要将GSLM发展为预训练模型，让使用者用少数标注资料，就能有效训练下游任务，比如口语摘要、资讯检索。（详全文）

程式码生成 Salesforce CodeT5

又有程式码生成工具问世！Salesforce开源可即时产生程式码的模型

Salesforce近日开源一套即时程式码生成模型CodeT5，这是继GitHub的Copilot、微软CodeBERT之后，另一个程式码生成工具。Salesforce指出，程式码生成技术虽然越来越成熟，但仍有其挑战，比如这些生成模型不是极度仰赖编码器（如BERT）就是解码器（如GPT），因此不是最有效的方法。

为解决这个问题，Salesforce打造一套具备编译器和解码器功能的预训练模型CodeT5。该模型架构与Google的文字生成预训练模型T5相似，但它改写了文字转换架构，让输入值和输出值都是文字串，因此对程式码的理解力更好。

团队用835万个范本来训练AI，包括使用者在GitHub上的书写评论。在训练时，最大版本的CodeT5具2.2亿个参数，花了12天才训练好。不过测试后，CodeT5在各种下游程式码任务都展现SOTA水准，不论是生成还是理解部分，比如自然语言转程式码（NL-PL）任务、程式码转自然语言（PL-NL），甚至是不同程式语言间的转换。（详全文）

Google 胸腔X光片 异常

更通用了！Google新模型能揪出训练资料集未见过的肺部异常

Google开发一套新模型，能从去识别化资料集中，区分正常和异常的胸腔X光片，而且，对没有出现在训练资料集的肺结核病和COVID-19，还能发现其异常之处，对于未见过的案例具有通用性。

目前的医疗AI，已有大量算法可用来侦测特定疾病，如肺癌、肺结核和气胸，但这些模型在临床上仍有所限制，像是气胸侦测器就无法显示癌症的病征，而肺结核侦测器可能无法辨识出肺炎。

因此，Google开发一套深度学习系统来解决这个问题。他们使用EfficientNet-B7架构的深度学习系统，在ImageNet上进行预训练，接着用来自印度阿波罗医院的20万张去识别化胸腔X光片训练模型。后来，Google使用各种资料集来测试这套系统，发现该系统能够精确地区分常见的胸腔异常，同时还能侦测未遇过疾病，能以非常高比例的发现肺结核病，也能揪出COVID-19病征。（详全文）

智慧制造 华硕 品质检测

瞄准智慧制造！华硕推出两大AI产品

华硕进攻智慧制造市场，旗下华硕IoT团队推出两大AI产品“人工智能视觉软件工具包”和“人工智能波形异常分析应用软件”，要来加速制造业AI化脚步。

其中，AI视觉软件工具包瞄准金属冲压、塑胶射出及电子零件组装等产业，利用零件光学和物理元件表现特性资料来训练AI模型，进一步辨识瑕疵产品，如刮痕、压伤、脏污等，甚至还能分辨藏在同心圆、发丝纹中的微小瑕疵。华硕指出，该工具包还导入异常侦测（Anomaly Detection）技术，能将原本耗费数小时的模型训练时间，缩短为数分钟。另一方面，AI波形异常分析应用软件则锁定动件产线业者，利用机器运转产生的震动波形资料训练模型，来判断马达、风扇等产品品质。（详全文）

Uber 大数据分析 开源平台

Uber大数据省钱术（上）：开源分析平台效率优化3大关键

Uber坐拥数百PB资料，全都靠开源平台分析，但这样的大数据分析平台，却是内部最烧钱的工具。为此，Uber先是制定了三大大数据分析平台省钱方向：供应、需求、平台效率，接着，Uber并进一步从平台效率，说明团队如何透过大数据档案瘦身、HDFS抹除码、YARN排程优化等方法，来提高开源平台效率。

档案瘦身第一步是格式优化。Uber内部Hadoop档案系统（HDFS）空间大都被Hive表格占据，这些表格以Parquet或ORC格式储存，这些格式是基于区块的列式格式，每个区块包含大量的行数（约1万）。为进行瘦身，团队研究出几个格式优化方法，比如用 GZIP Level 6算法压缩Parquet档案，或是定期删除从Kafka抽取的日志列，或是手动调整行的排序，来减少表格大小，最高可降低50%。＜/p>

再来，Uber利用Hadoop 3.0 HDFS抹除码，来进行瘦身第二步。HDFS抹除码是一种资料容错技术，可大量取代大小档案中的重复性资料，大幅释放容量。接着，Uber设计一套动态MAX算法，来优化YARN容量排程，来应付伫列高峰时段的负载。

此外，Uber还尝试其他方法来提高平台使用率，比如他们虽使用Hive-on-Spark、Spark、Presto等三种查询引擎，但团队正将所使用的档案格式改为Parquet；另一方面，他们也利用Apache Hudi顶级专案，来保持数据新鲜度，不必每天扫描好几天分量的旧资料。（详全文）

EdTech 语言学习 Birdbrain

语言学习App大厂Duolingo揭露内部AI应用

拥有5亿使用者的语言学习App业者Duolingo近期举办教育科技大会Duocon，分享了自家App使用的AI技术，包括动态出题、语音合成、AI调整动画角色。Duolingo公司由卡内基美隆大学研究员于2009年成立，目前提供了40种语言共100多种自学课程和测验，这些课程能根据使用者程度出题，也会在题目中提供例句、单字朗读。

Duolingo表示，他们打造一套最新的AI题目排程系统Birdbrain，来预测使用者答对下一个题目的概率，进而动态调整、提供相对应程度的题目，让使用者保持学习兴趣。此外，他们也正部署优化过的语音合成算法，来提供更像人类的发音。另一方面，团队也用AI辅助设计一系列的卡通人物，来直接与使用者对话，让需要死背硬记的课程不再单调。（详全文）

图片来源／脸书、Salesforce、Google、Uber

AI趋势近期新闻

1. 中钢启动AI挑战赛、锁定字元辨识，广邀各路AI好手参赛

2. 交通部用无人机、影像辨识技术维护路口安全

资料来源：iThome整理，2021年9月