APP下载

因应整并后3亿日本用户规模新考验,Line从3大技术关键来强化AI生产力

消息来源:baojiabao.com 作者: 发布时间:2024-11-23

报价宝综合消息因应整并后3亿日本用户规模新考验,Line从3大技术关键来强化AI生产力

Line今年开发者大会聚焦自身技术实力的锻造成果,介绍强化AI生产力的多项关键。“明年,Yahoo开发成果也将会在Line开发者大会上展现。”Line技术长朴懿彬这样预告,揭露了她对两家公司合并后技术整合的期待,将在明年开花结果。(图片来源/Line)

今年满10岁的Line,正处于关键的企业转型期。

3年前,Line在开发者大会宣布转型成AI公司的大愿景,更揭露了AI蓝图要发展8大领域AI。但去年全球疫情肆虐,日本灾情冲击下,Line转而集中资源发展零接触商机、远距抗疫等新需求,如聊天支付、线上视讯会议等,8大AI领域也进一步聚焦到4大AI研发方向。

企业定位调整之际,日本Line母公司Naver和日本Yahoo的母公司软银合资开设了ZHD控股公司,将日本Line和日本雅虎两家公司整并成为同一个集团的两家子公司,在今年3月完成合并。

日本最大入口网站和最大即时通讯平台两大巨头,双方用户加起来超过3亿人,服务的企业店家超过了1,500万家,横跨金融、电商、广告、媒体、网络社群、旅游等产业。彼此的平台、技术、资料、人力的资源要能互通,甚至共享,不只是公司体制面的调整,更是技术面的大考验。过去有不少科技公司整并后营运挫败甚至消失,就是因为技术面或产品面的整合失败所致,这正是Line在2021年所面对的课题和挑战。成则加速飞天,不成则断翅落地。

这个挑战多大?可从Line的使用规模略知一二。全球各国的每月活跃人数在2021年6月时,达到了2亿人规模,不只通讯平台,广告,新的影音服务和新闻服务在去年也大幅成长,而新闻服务在日本的单月浏览人数更达到154亿人次。技术面,Line即时通讯平台每秒要处理高达40万个请求,用户一天上传的资料量更是高达11PB,包括各种图片、影片、贴图等。过去几年所打造的集中式资料平台Information Universe(简称IU),目前累计有290PB资料,每个月都会再增加10PB的庞大资料量。

在IU平台上更有一套Machin Learning Universe(MLU)平台,可提供NLP模型、电脑视觉模型、推荐模型、广告优化模型等,更从Line不同服务的授权Log资料中,搜集了8千万种特征,作为机器学习训练之用。“因为有这一套资料平台和机器学习平台,我们才能更快推出新服务。”Line技术长朴懿彬强调。

但上述这些数据,只有Line自己的用户数据。今年6月时,Line日本用户数约8,900万人,而日本Yahoo则有约6,700万人,旗下支付服务PayPay也有4,000万人。两家公司整并后,在使用者端的技术将以Line现有技术为主,也就是说,Line这套技术体系最后得面对的考验是,超过3亿人的日本用户规模,比Line全球规模还要多了50%,要整并这些新来用户和资料,都是平台和技术的超大难题。

今年Line开发者大会上,不像过去两届大谈未来方向,Line今年更聚焦揭露自身技术实力的锻造成果,其中有3大技术进展,是为了强化前瞻AI技术力、机器学习应用开发速度,甚至能更自动化累积训练资料的AI生产力关键大改造。

关键1:发展超大规模通用NLP模型和生态圈

第一个关键是超大规模的通用NLP模型HyperCLOVA。朴懿彬表示,MLU是Line对内提供的机器学习平台,对外部使用者和开发者也有一套通用机器学习平台,就是HyperCLOVA。

Line AI首席执行官砂金信一郎指出,全球AI技术发展上,不只出现各式各样的资料集,也出现了各种超大规模的通用型NLP模型,例如Open AI组织发展的GPT 3或是Google的T5,可以用于各种任务的AI推论之用。这正是Line也要自己发展通用NLP模型的原因。

Line和Naver联手,去年先发表了日语版NLP,今年5月更在Line的AI大会上揭露了HyperCLOVA这个超大规模通用NLP专案,新增加了韩语版NLP,号称是韩文版GPT-3,用2,040亿个参数训练而成,比GPT-3的1,750亿参数还要多。而去年日语版NLP模型现在发展到390亿个参数。Line也开始打造多语言模型,目前达到390亿参数,希望2022年达到820亿个参数,而日语版NLP模型明年目标更是惊人的2,040亿个参数。

“参数越多,代表能描述更多字词间的关系,NLP的推论能力和泛用性就能越大。”砂金信一郎强调,但语言模型的训练是NLP应用一大挑战,往往需要1、2个月才能训练出一个超大规模的NLP模型,非常耗时,Line希望透过HyperCLOVA这个超大规模NLP模型,再结合少样本训练或单样本训练来调校,加快开发特定应用NLP模型的速度。为了让HyperCLOVA打造的NLP模型能提供给第三方商用,Line在训练语料搜集上不只排除有版权保护的资料,也不用Line自家服务的资料。

不只如此,Line还进一步打造GUI界面的AI开发环境HyperCLOVA Studio服务,内建NLP模型、资料生成机制和ML调校机制,更能直接线上测试NLP应用。还有一套Explorer工具可用来辅助语料文本分类和生成的处理。这两个工具都内建了过滤层和稽核机制,可因应AI伦理或资料隐私议题。

目前Line已经完成了HyperCLOVA的API,正准备释出,也将开放试用HyperCLOVA Studio。砂金信一郎透露,未来将提供半自动的场景生成工具,可自动产生特定场景的AI应用,如Chatbot和AiCall服务,也打造更多小型的通用语言模型。未来还会迈向多模态通用模型,不只文字语料,也将可以用来训练影像和声音的语料。

关键2:结合MLOps更自动化追踪ML模型品质

将通用NLP模型发展成一个推动NLP应用生态圈的技术架构,只是Line强化AI生产力的第一关键,另外还有两个关键,第二项就是ML模型品质监控自动化。Line打造了一套MLOps系统,称为Lupus。Line现在有上百款运用机器学习的产品,分散在20多个部门中,如何让这些单位都有能力自行掌握所用模型的状态,尤其当资料漂移,例如使用者行为改变,导致所用机器学习模型的预测力开始下滑时,能够第一时间发现,进而重新训练机器学习模型。这套Lupus以专属监控主机、函式库和一款网页应用程序,让开发者、维运者和专案成员更方便掌握模型最新动态。

Lupus不只可以让开发者容易建立侦测指标,也能自动侦测模型的异常,并且透过视觉化仪表板方便业务团队参与判断。这正是AI生产力的第三个关键,可以用来维护AI应用的预测品质,还能简化ML长期维运的工作。

关键3:打造新一代使用者特征自动预测系统

最后一项是,Line在去年重新改造了使用者人格(User Persona)预测系统,这是一个用来推测用户属性的系统,可以利用机器学习技术自动预测使用者的兴趣、特质、特征等,作为内容推荐或目标行销等需用户分类资讯的场景。

这套系统所涵盖的用户规模,以Line用户为主,如8,900万人日本用户上,累积的机器学习特征维度高达480万维,也涵盖了台湾每月活跃用户近5千万人次,针对台湾用户的特征维度则有140万维。这些都是Line的讯息推播、广告发送、内容推荐能够更精准锁定目标对象的关键。

为了因应未来日本用户规模达到3亿人,Line在去年夏天导入了GPU和K8s丛集,重新改造了这套系统,能够运用主流的机器学习框架,更计划要发展一套使用者人格特征自动产生的机器学习框架,来加快,每次新增一种新使用者机器学习特征抽取自动化的流程,可以更快将新服务的使用者纳入使用者人格系统所涵盖的范围中。

上述这三项关键,可以加速AI应用开发、简化AI训练流程,甚至是确保模型品质和长期维运的关键,可说是提升AI生产力的核心。这正是今年的 Line提升自身技术体质的成果。

“明年,Yahoo开发成果也将会在Line开发者大会上展现。”朴懿彬在开发大会主场演讲中这项预告,揭露了她对两家公司合并后技术整合的期待,将在明年开花结果。

2021-11-22 07:46:00

相关文章