因应整并后3亿日本用户规模新考验，Line从3大技术关键来强化AI生产力最新消息

Line今年开发者大会聚焦自身技术实力的锻造成果，介绍强化AI生产力的多项关键。“明年，Yahoo开发成果也将会在Line开发者大会上展现。”Line技术长朴懿彬这样预告，揭露了她对两家公司合并后技术整合的期待，将在明年开花结果。（图片来源／Line）

今年满10岁的Line，正处于关键的企业转型期。

3年前，Line在开发者大会宣布转型成AI公司的大愿景，更揭露了AI蓝图要发展8大领域AI。但去年全球疫情肆虐，日本灾情冲击下，Line转而集中资源发展零接触商机、远距抗疫等新需求，如聊天支付、线上视讯会议等，8大AI领域也进一步聚焦到4大AI研发方向。

企业定位调整之际，日本Line母公司Naver和日本Yahoo的母公司软银合资开设了ZHD控股公司，将日本Line和日本雅虎两家公司整并成为同一个集团的两家子公司，在今年3月完成合并。

日本最大入口网站和最大即时通讯平台两大巨头，双方用户加起来超过3亿人，服务的企业店家超过了1,500万家，横跨金融、电商、广告、媒体、网络社群、旅游等产业。彼此的平台、技术、资料、人力的资源要能互通，甚至共享，不只是公司体制面的调整，更是技术面的大考验。过去有不少科技公司整并后营运挫败甚至消失，就是因为技术面或产品面的整合失败所致，这正是Line在2021年所面对的课题和挑战。成则加速飞天，不成则断翅落地。

这个挑战多大？可从Line的使用规模略知一二。全球各国的每月活跃人数在2021年6月时，达到了2亿人规模，不只通讯平台，广告，新的影音服务和新闻服务在去年也大幅成长，而新闻服务在日本的单月浏览人数更达到154亿人次。技术面，Line即时通讯平台每秒要处理高达40万个请求，用户一天上传的资料量更是高达11PB，包括各种图片、影片、贴图等。过去几年所打造的集中式资料平台Information Universe（简称IU），目前累计有290PB资料，每个月都会再增加10PB的庞大资料量。

在IU平台上更有一套Machin Learning Universe（MLU）平台，可提供NLP模型、电脑视觉模型、推荐模型、广告优化模型等，更从Line不同服务的授权Log资料中，搜集了8千万种特征，作为机器学习训练之用。“因为有这一套资料平台和机器学习平台，我们才能更快推出新服务。”Line技术长朴懿彬强调。

但上述这些数据，只有Line自己的用户数据。今年6月时，Line日本用户数约8,900万人，而日本Yahoo则有约6,700万人，旗下支付服务PayPay也有4,000万人。两家公司整并后，在使用者端的技术将以Line现有技术为主，也就是说，Line这套技术体系最后得面对的考验是，超过3亿人的日本用户规模，比Line全球规模还要多了50%，要整并这些新来用户和资料，都是平台和技术的超大难题。

今年Line开发者大会上，不像过去两届大谈未来方向，Line今年更聚焦揭露自身技术实力的锻造成果，其中有3大技术进展，是为了强化前瞻AI技术力、机器学习应用开发速度，甚至能更自动化累积训练资料的AI生产力关键大改造。

关键1：发展超大规模通用NLP模型和生态圈

第一个关键是超大规模的通用NLP模型HyperCLOVA。朴懿彬表示，MLU是Line对内提供的机器学习平台，对外部使用者和开发者也有一套通用机器学习平台，就是HyperCLOVA。

Line AI首席执行官砂金信一郎指出，全球AI技术发展上，不只出现各式各样的资料集，也出现了各种超大规模的通用型NLP模型，例如Open AI组织发展的GPT 3或是Google的T5，可以用于各种任务的AI推论之用。这正是Line也要自己发展通用NLP模型的原因。

Line和Naver联手，去年先发表了日语版NLP，今年5月更在Line的AI大会上揭露了HyperCLOVA这个超大规模通用NLP专案，新增加了韩语版NLP，号称是韩文版GPT-3，用2,040亿个参数训练而成，比GPT-3的1,750亿参数还要多。而去年日语版NLP模型现在发展到390亿个参数。Line也开始打造多语言模型，目前达到390亿参数，希望2022年达到820亿个参数，而日语版NLP模型明年目标更是惊人的2,040亿个参数。

“参数越多，代表能描述更多字词间的关系，NLP的推论能力和泛用性就能越大。”砂金信一郎强调，但语言模型的训练是NLP应用一大挑战，往往需要1、2个月才能训练出一个超大规模的NLP模型，非常耗时，Line希望透过HyperCLOVA这个超大规模NLP模型，再结合少样本训练或单样本训练来调校，加快开发特定应用NLP模型的速度。为了让HyperCLOVA打造的NLP模型能提供给第三方商用，Line在训练语料搜集上不只排除有版权保护的资料，也不用Line自家服务的资料。

不只如此，Line还进一步打造GUI界面的AI开发环境HyperCLOVA Studio服务，内建NLP模型、资料生成机制和ML调校机制，更能直接线上测试NLP应用。还有一套Explorer工具可用来辅助语料文本分类和生成的处理。这两个工具都内建了过滤层和稽核机制，可因应AI伦理或资料隐私议题。

目前Line已经完成了HyperCLOVA的API，正准备释出，也将开放试用HyperCLOVA Studio。砂金信一郎透露，未来将提供半自动的场景生成工具，可自动产生特定场景的AI应用，如Chatbot和AiCall服务，也打造更多小型的通用语言模型。未来还会迈向多模态通用模型，不只文字语料，也将可以用来训练影像和声音的语料。

关键2：结合MLOps更自动化追踪ML模型品质

将通用NLP模型发展成一个推动NLP应用生态圈的技术架构，只是Line强化AI生产力的第一关键，另外还有两个关键，第二项就是ML模型品质监控自动化。Line打造了一套MLOps系统，称为Lupus。Line现在有上百款运用机器学习的产品，分散在20多个部门中，如何让这些单位都有能力自行掌握所用模型的状态，尤其当资料漂移，例如使用者行为改变，导致所用机器学习模型的预测力开始下滑时，能够第一时间发现，进而重新训练机器学习模型。这套Lupus以专属监控主机、函式库和一款网页应用程序，让开发者、维运者和专案成员更方便掌握模型最新动态。

Lupus不只可以让开发者容易建立侦测指标，也能自动侦测模型的异常，并且透过视觉化仪表板方便业务团队参与判断。这正是AI生产力的第三个关键，可以用来维护AI应用的预测品质，还能简化ML长期维运的工作。

关键3：打造新一代使用者特征自动预测系统

最后一项是，Line在去年重新改造了使用者人格（User Persona）预测系统，这是一个用来推测用户属性的系统，可以利用机器学习技术自动预测使用者的兴趣、特质、特征等，作为内容推荐或目标行销等需用户分类资讯的场景。

这套系统所涵盖的用户规模，以Line用户为主，如8,900万人日本用户上，累积的机器学习特征维度高达480万维，也涵盖了台湾每月活跃用户近5千万人次，针对台湾用户的特征维度则有140万维。这些都是Line的讯息推播、广告发送、内容推荐能够更精准锁定目标对象的关键。

为了因应未来日本用户规模达到3亿人，Line在去年夏天导入了GPU和K8s丛集，重新改造了这套系统，能够运用主流的机器学习框架，更计划要发展一套使用者人格特征自动产生的机器学习框架，来加快，每次新增一种新使用者机器学习特征抽取自动化的流程，可以更快将新服务的使用者纳入使用者人格系统所涵盖的范围中。

上述这三项关键，可以加速AI应用开发、简化AI训练流程，甚至是确保模型品质和长期维运的关键，可说是提升AI生产力的核心。这正是今年的 Line提升自身技术体质的成果。

“明年，Yahoo开发成果也将会在Line开发者大会上展现。”朴懿彬在开发大会主场演讲中这项预告，揭露了她对两家公司合并后技术整合的期待，将在明年开花结果。