APP下载

疫情假新闻满天飞,Line如何用AI加速事实查核?

消息来源:baojiabao.com 作者: 发布时间:2024-10-11

报价宝综合消息疫情假新闻满天飞,Line如何用AI加速事实查核?

Line台湾资料工程部资深经理蔡景祥(图左)和资料工程部资料科学家吴肇中(图右)指出,Line讯息查证中心成立之初,就采用当时刚问世的NLP经典模型BERT来进行假新闻文章分类和近似文章辨识。

图片来源: 

摄影/洪政伟

今年5月疫情在台湾瞬间爆发,全国进入三级警戒,确诊人数史无前例来到三位数。但暴增的不只是病例数,还有各种假新闻。“光是5月,每天涌入Line讯息查证中心的人数就比之前高出3.6倍,”Line台湾表示。

一如病毒喜欢在人群间流窜,假新闻最常在通讯平台蔓延。在台拥有2千万活跃用户的Line,每天群组传递的讯息高达93亿则,为避免成为假新闻培养皿,Line台湾两年前就联手行政院和4家事实查核机构,成立讯息查证中心,来提供正确的新闻资讯。

随着疫情起伏,更涌出巨量待查核新闻,Line如何因应?

两款AI模型分工,辨识文章相似度再分类给专家

答案是“靠两套AI模型加速查核速度。”Line台湾资料工程部资深经理蔡景祥指出,Line本身不进行讯息查核,而是透过自动化的机制,汇聚查核的结果供使用者检阅。因此,Line讯息查证中心成立之初,就利用两套自然语言预训练模型,来进行近似文章辨识和文章分类。

这么做的原因是,新闻内容的真假,仍仰赖不少专家人工判读,但许多假新闻都是同一则重复散播的讯息,因此只要辨识出这些文章的同一则来源,查核一次即可,省下大量人力的重工。

如此,每当Line讯息查证中心收到一则文章查核通报,会先利用近似文章辨识的AI技术,来比对已查证过的新闻。只有当通报的新闻未经查证,Line讯息查证中心才会将文章分派给专家,来查证真伪。但这些专家擅长领域不同,有些专精政治、医疗,有些熟悉体育、娱乐。为将通报的新闻派送给合适领域的专家,Line也利用AI模型来分类文章,并将派送过程自动化。

不论是文章辨识和文章分类工作,都要靠NLP技术才能提高准确度。一开始,Line使用BERT模型来执行这些任务,BERT是Google在2018年底发表的NLP经典模型,一问世就在各大基准测试排行榜上名列前矛,在各种自然语言理解任务创下佳绩。采用Transformer架构的BERT,可双向分析语言,理解力几乎完胜过往任一NLP模型。

原模型表现不理想,改用SBERT比对文章相似度

BERT问世后几个月,Line很快就在自家讯息查证任务上,尝试这项新技术。不过,“BERT在假新闻近似文章判断,仍有进步空间。”蔡景祥指出,BERT虽有一定的辨识水准,但模型上线后出现不少状况,比如使用者查询特定主题新闻时,模型会给出不甚精准的答案。这促使Line团队开始寻找其他解决方法,经过多方试验和比较,他们决定改用BERT的变形模型Sentence-BERT(简称SBERT),来执行近似文章判断任务。

近似文章判断又称为语义文本搜寻(Semantic textual similarity),会利用不同指标来衡量一对句子的相似度。SBERT厉害之处在于“对句子的理解力更强,而非只聚焦单字本身,”Line台湾资料工程部资料科学家吴肇中说。这是因为,SBERT采用孪生神经网络(Siamese Network),这种三元网络的结构更容易得到有意义的句子嵌入,辨识能力比BERT还要好。

经三番试验,文章分类采用BERT变形模型

不只在近似文章辨识的AI模型持续精进,Line在文章分类AI技术上也经过多次试验,才找出目前的作法 。Line研究了多款NLP模型,再进一步比较BERT、ELECTRA和一般主题分类常见的LDA等三种模型。他们发现,ELECTRA最符合“辨识精准、快速且模型不肥大的需求,”吴肇中说。

ELECTRA这个NLP技术的来头也不小。自2018年发表BERT后,Google时不时推出改良版模型,ELECTRA就是其一。有别于其他以遮罩(Mask)为主的改良版模型,ELECTRA的架构犹如生成对抗网络GAN,能靠生成器和鉴别器来分辨文句真伪,而且,“模型在分类上也有不错的表现,”吴肇中表示。Google在发表ELECTRA的论文中更指出,其耗能比NLP经典模型BERT来得低,只需四分之一的运算资源就能达到SOTA表现。

“这个优势,非常适合新闻分类,”吴肇中强调。于是,他们利用事实查核中心提供的数千笔新闻分类资料训练模型,大约1小时就完成训练,部署来分辨文章类型。

预训练模型微调就能快速落地,但也有门槛

不论是ELECTRA还是SBERT,为应付不断变动的假新闻用语和风格,Line甚至每天都会更新模型,以当日新增的资料来调整模型,让模型更懂时下热门话题。

这就是预训练模型的好处,因为已用大量、各式各样的资料来训练模型,因此,后续采用者只需少量资料,就能快速微调成出符合需求的模型。不过,“我们也曾从零开始训练一套模型。”蔡景祥回忆,团队曾在另一个专案中,自行收集、标注4,000多笔文字资料来训练分类模型,但模型表现只有0.4、0.5。

后来,Line台湾团队加码扩大训练资料量至1万6千笔,模型表现才达0.7,勉强堪用。但在那之后,就算团队收集再多资料,也无法提高模型准确度。蔡景祥点出,1万6千笔标记资料的成本太大,不仅要投入大量人力标注,也要人工维护这些标注资料,“负担很大。”

但BERT预训练模型就没有这类问题。“同样任务改用BERT,就不需要这么多标记资料,几千笔也能达到很好的效果。”在蔡景祥看来,采用预训练模型比重建一套模型更经济,也更有效率。

不过,微调也不是一件轻松事。蔡景祥点出,只有专精特定领域的资料科学家才能做好微调工作。为了降低门槛,Line也借助自动化机器学习工具AutoML自动挑选最佳参数组合,把省下来的人力专注在微调工作上。

你没注意到的小细节,都有BERT的影子

不只讯息查证使用BERT,Line许多功能也有BERT的影子。举例来说,Line的光学文字辨识(OCR)服务就靠BERT来校正文字。它的原理是,先透过一套AI模型,在影像画面中框出文字形状,透过形状来猜字,再靠另一套BERT模型计算字与字之间的概率,判断合理性。要是两字连着出现的概率太低,模型就会校正文字,提高辨识准确度。

除此之外,Line在命名实体辨识(NER)上也运用BERT模型。所谓NER是指,从文章中辨识人名、地名、组织名等专有名词的技术。NER虽然不是一套最终产品,但是个不可或缺的工具,很多服务和功能都会用到它。

比如,Line有一套内部使用的NER工具,可从文章中挑出人名、地名、时间、机构名称等名词,自动转为标签,让自家小编用来编辑相同主题的文章;而Line Today的每篇新闻,下方的#主题标签也是靠NER先挑出候选关键字,再靠其他算法排序挑选出来。

在蔡景祥看来,NER是自然语言理解(NLU)的一部分,能让电脑掌握更多文章讯息,作为下一个服务的元素。比如,NER可用来锁定特定关键字,如麻辣锅,如此能将麻辣锅相关食记和麻辣锅店家连结起来,发展出食记推荐餐厅的服务,供使用者参考。

至此,Line台湾累积不少BERT经验,特别是讯息查证的近似文章搜寻和分类。他们希望将这个经验扩散到更多服务,像是电商,透过自动分类、贴标、找出关键字等功能,来加速商品分类和推荐。

近似文章搜寻也是,可用来推荐相同主题的文章,如食记、游记等。蔡景祥更透露,团队也在研究自然语言生成(NLG)等前瞻技术,衡量能否提供长文缩短、编写摘要,甚至是短句生成的服务,“成为写文章的好助手。”

Line还有更大野心,要用Transformer通吃文字影像辨识

不只是台湾Line团队投入NLG技术的研究,一个多月前,Line母公司Naver举办线上AI技术大会,揭露了最新的NLG成果,发表了一套号称是韩文版GPT-3的自然语言预训练模型HyperCLOVA,具2,040亿个参数,比公认的NLG指标模型GPT-3还要多。

Naver AI研究中心的主管们,在大会上兴致勃勃展示HyperCLOVA的各种用途。这个AI工具能与人类自然对话,能靠几个关键字生成产品介绍,还能总结复杂的文件档案。特别的是,HyperCLOVA能让使用者选择、组织用来训练另一个AI所需的资料。Naver本身也在5月初,在自家网站部署HyperCLOVA,来提供自动更正错字、推荐相关搜寻关键字的功能。

Naver不只在这场大会秀最新技术,也宣示AI野心。Naver AI研究中心总监Jeong Seok-geun直言:“身为代表韩国AI科技发展的公司,我们将突破挑战,联手各界创造一个AI新时代。”

HyperCLOVA就是一个新利器,Naver计划要它学会更多语言,还要能看懂图像和影片,来提供更人性化的企业服务。Line台湾更透露,团队目前正商讨HyperCLOVA潜在的中文应用场景。文⊙王若朴

 快速认识科技巨头力捧的Transformer 

Google在2017年提出Transformer模型,是一个把注意力机制发挥到极致的架构,专门用来处理序列型任务,如自然语言处理(NLP),效果更胜传统RNN。隔年,Google以Transformer为基础,发表一套NLP预训练模型BERT,在各大基准测试(Benchmark)拿下榜首,划下NLP时代分水岭。此后,各种Transformer变形雨后春笋般涌出,像是脸书的RoBERTa、Google的XLNet、华为的TinyBERT,以及OpenAI的GPT-3,可说是遍地开花。

GPT-3和BERT一样,都取自Transformer架构,只是前者采用Transformer的编码器和解码器,因此能执行自然语言生成任务,如文章创作、摘要生成,而BERT只采用编码器,因此擅长自然语言理解任务,如翻译、问答等。

不过,去年底,这些科技巨头开始探索Transformer的另一个潜能,也就是影像辨识。Google去年底发表一篇论文,指出Transformer可媲美传统影像辨识模型CNN。论文一出,立即引起ML社群议论,不少AI界指标性人物看好Transformer的多模态潜力。

今年初,OpenAI用Transformer架构打造出可同时辨识文字和图像的类神经网络DALL·E,Transformer正式步入多模态任务的解方模型。后来,脸书也接续发表可辨识文字和影像的模型DINO与PAW,而Google更在5月I/O大会上,揭露一款能同时辨识文字和影像的Transformer模型MUM,计划要将MUM用来改善Google搜寻服务,将文字搜寻纳入图片资料,丰富使用者体验。

从这个趋势看来,Transformer持续成为科技巨头的热门研究对象,甚至会引发新一波多模态模型革新。

2021-07-20 12:47:00

相关文章