APP下载

【Line AI生产力关键1:通用NLP模型】以HyperCLOVA发展企业NLP服务,下一步抢攻通用AI

消息来源:baojiabao.com 作者: 发布时间:2024-11-24

报价宝综合消息【Line AI生产力关键1:通用NLP模型】以HyperCLOVA发展企业NLP服务,下一步抢攻通用AI

Line揭露HyperCLOVA发展架构,由通用超大规模模型和专精小模型两类模型作为核心引擎,来驱动前端AI资料处理系统Explorer和NLP开发工具Studio。(图片来源/Line)

在2021年开发者大会上,Line揭露了一款超大语言模型HyperCLOVA,宣布要以这个模型,发展一系列企业级的自然语言处理(NLP)服务,包括用来快速打造NLP应用程序的Studio,以及用来处理NLP训练资料的Explorer,甚至还有一套AI Filter来过滤模型输入和输出值,替企业把关产出品质。

拥有820亿参数,语音助理、开放式对话、标语生成都能做

这不是HyperCLOVA首次亮相。早在今年5月,Line母公司Naver就在自家AI大会上揭露HyperCLOVA,号称韩文版GPT-3,用2,040亿个参数训练而成,比GPT-3的1,750亿参数还要多。几个月后的现在,经过Naver和Line共同改良,HyperCLOVA再次现身重量级大会,不同的是,Line揭露的HyperCLOVA懂的语言更多,还更有完整的产品生态系蓝图,以及更多的实用案例。

比如,大会现场,Line AI首席执行官砂金信一郎就亲自示范以HyperCLOVA优化的虚拟YouTuber绊爱,来与真人即时问答互动,就连能自动打电话订位的虚拟助理AiCall,也由HyperCLOVA驱动。甚至,Line NLP团队经理Toshinori Sato秀出一段自己与HyperCLOVA聊天机器人的对话,对话角色包括他自己和拟人化的商品色铅笔,当他询问色铅笔“你是什么颜色”时,色铅笔回答“我是红色”,当他问“你喜欢什么颜色”时,它说“蓝色,因为蓝天和海洋很美丽,不是吗?”这个简单的示范,点出了HyperCLOVA作为商品聊天机器人的应用潜力,企业可用来开发专属机器人,回复顾客对商品的各种问题。

这款HyperCLOVA具有820亿个参数,是大型多语言模型,正处于整体发展蓝图的第三阶段。这代表,HyperCLOVA已走过只精通日文、规模达130亿参数的第一阶段,也经过390亿参数的多语言模型第二阶段。而且,HyperCLOVA在第二阶段,就与BERT大型日文模型表现相当,准确度只差1.65(85.03对86.68)。明年,HyperCLOVA还要从第三阶段迈入最后阶段,不只要达到2,040亿参数规模,还要成为超大规模(Hyper-scale)模型。

自建语料库3原则透露商品化野心,用小样本学习保有通用力

要训练如此庞大的HyperCLOVA,得先建立一套语料库。Toshinori Sato点出,Line收集语料有3个原则,第一是不从Line任何对话服务中取得资料(包括Line社群功能OpenChat),再来是确保语料多样性,最后是建立语料库子集,如此才能将语料库用于Line以外的服务。这3个原则,也凸显Line要以HyperCLOVA发展AI产品的决心。

在这些原则下,他们以NLP经典开源预训练模型BERT的2019年资料集为语料库基础,再以爬虫方式收集Line搜寻的文字资料,同时购买外部资料,并确保这些资料来自重要的网站,让模型学习各种日文表达方式。Toshinori Sato强调,Line团队特别注重个资,语料库中任何与个资相关的讯息,都会删除。

经过一年多努力,这个语料库目前累积到1.8TB大,拥有100亿个样本,Token数量达到5,000亿个。虽然Line未透露太多HyperCLOVA的模型架构细节,但可以看出,有别于直接拿BERT来微调下游任务的NLP圈常见作法,Line重新打造一套属于自己的大型预训练模型。Toshinori Sato表示,BERT虽然只需依使用者需求,用特定任务资料集来简单微调下游任务(如翻译、问答),就能享有SOTA模型准确度,但,使用者还是得按不同任务,建立专属小型资料集来微调BERT,这种监督式学习方法,可能让BERT丧失通用能力。

为保有通用力,设计HyperCLOVA时,Line就决定要让它可透过小样本来学习(Few-shot learning),甚至是单样本(One-shot)和零样本(Zero-shot)。意思是,在小样本的情境中,开发者只需给定一个任务描述和少数示例,HyperCLOVA就能以这些样本来学习解题。在单样本学习中,开发者给定任务描述和一个示例,模型即可学习,甚至在零样本中,只需提供任务描述即可,不需任何示例。这么做,HyperCLOVA可根据简短的描述或少量样本来解决各种任务,更贴近一般企业的需求。

这就是Line的HyperCLOVA计划。他们希望,靠HyperCLOVA一个大型模型,就能利用多种资料,来解决多种任务,扭转过去“一种资料来源-一个模型-一个任务”的窘境。Toshinori Sato举例,过去,要解决搜寻任务,只能用搜寻模型来分析网页资料,产出所需的搜寻结果。或是,要用购买纪录进行商品推荐和顾客关系维护时,得分别打造两套模型,一套用来推荐,另一套用来维持顾客关系,即便两者的资料来源都是一样的,还是得用两套模型分析。

“我们希望用一个大型模型来处理各类资料、执行各种任务,”他举例,这个超大模型要能分析网页资料、购买记录、交易纪录、语音输入,并用这些资料来执行搜寻、问答、商品推荐、需求预测、对话等任务,至少先解决这些任务共通的NLP问题。这个方向,定下了HyperCLOVA的发展基调。

当引擎驱动两大应用系统,还要打造企业通用AI生态系

图片来源_Line

大会上一张HyperCLOVA的发展架构图,清楚点出未来产品路线。在这张架构图的最底层,是驱动一切服务的资料层,包括各类大数据和开放资料。在资料层之上是模型层,也是HyperCLOVA模型所在处。这层包括了两类重要模型,分别是通用的超大规模模型,以及专精各类任务的小型模型,包括日文模型、多语言模型、影像模型等。

模型层之上是基础架构层,包含模型训练与推论,再往上就是HyperCLOVA所驱动的前端应用系统,包括Explorer和Studio。其中,Explorer专门用来处理AI训练资料,比如文字资料生成、文字资料分类,让使用者用来打造AI模型。特别的是,Explorer中还搭配一套AI Filter控管机制,来把关模型的输入值与输出值,同时确保HyperCLOVA不被滥用。Studio则是更应用导向的NLP开发工具,它有三大功能,包括用来开发NLP应用的沙盒环境Playground,以及资料生成和强化功能,还有NLP模型微调功能。这些功能都以HyperCLOVA驱动,目前最成熟的功能就属Playground。

Playground可以怎么用呢?Toshinori Sato在会场上,展示一款以Playground打造的广告文宣生成应用程序。在这款应用程序中,使用者可输入自家产品名称、一句摘要(如产品成分、产地)和说明,系统就会产生一段产品文宣,使用者可调整温度(Temperator)、重复排除(Repeatition Penalty)和最大词汇量(Maximum Tokens)等参数,来调整文宣内容。

HyperCLOVA Studio中的Playground有如沙盒环境,使用者可用来开发各类NLP应用,比如打造一个快速生成产品广告文宣的应用程序,只要输入产品名称和简短摘要,就能产出文宣内容,使用者还可调整参数来变更内容。图片来源_Line

这个只需输入单项产品资料、就能产出文宣的功能,就是运用HyperCLOVA单样本学习的能力。但这只是Playground的范例之一,企业可用Playground来开发多种NLP应用。今年,Line也将开放开发者试用Studio,并释出Python SDK,要让大家都能使用。

不过,在Line的技术战略中,NLP应用只是第一步。Line预告,接下来要结合电脑视觉技术,赋予HyperCLOVA“看”的能力,既要能看懂影像,也要懂影像中的文字,比如将多模态AI纳入主打的OCR服务,让AI辨识图片中文字,还能理解文字含义,甚至,Line要进一步将推动工作流程自动化,利用影像辨识和NLP能力,来自动化法律合约检视与修改。他们的目标是,用一个模型解决多模态任务,打造MiLAI(Mixed Line),往通用AI迈进、打造更完整的AI产品生态系。

 

2021-11-22 07:46:00

相关文章