“我们有100多个机器学习产品,横跨20多个部门中运作!”Line机器学习开发部工程师石河纯辉说。当AI深化到企业内部各流程,就得有套机制来监控模型,以便在模型偏移时即时调整。这种机制就是MLOps。
高度仰赖AI的Line深知MLOps重要性,但仍面临不少挑战,像是收集模型各类指标、模型异常侦测和监控视觉化等问题。经过一番琢磨,他们找出一套解法,自行开发一套MLOps监控工具Lupus,提供专属监控主机、专用函式库和视觉化仪表板的网页应用,让开发者、维运者和专案成员更容易掌握ML模型的动态和品质,甚至可用来即时重新训练模型,修正模型预测的偏差。
为何MLOps不好做?资料漂移、周期性特性比DevOps复杂好几倍
谈起维运,最为人熟知的就是DevOps,诸如资源使用状况(CPU、内存等)、网络流量变化、硬盘读写能力等,都能靠一套成熟的监控机制来自动、定时把关,还能用逻辑简单的警报系统来提醒维运者。
但,MLOps远比DevOps要复杂。石河纯辉指出,MLOps是“ML + Dev + Ops”这三种工作流程(也是团队)的整合,工作流程涵盖了ML阶段的模型设计、分析、评估,再加上Dev阶段的资料收集、工作流程建立,还有与Ops阶段重叠的模型派送工作等。甚至,Ops阶段还需要进行模型维运和监控。
要发展一套MLOps流程,得涉及资料和模型两大层面。就资料来说,维运者得注意输入资料的变化,也就是资料是否发生漂移,另也需注意输入值的目标模式变化,即是否发生概念漂移。在模型部分,则要注意模型准确度、推荐值的多样性,以及模型公平性。
而且,石河纯辉指出,MLOps监控频率会因模型而异,无法像传统DevOps作法,只是简单地设置阈值警示通知即可。有些模型数小时就得检测一次,有些是数天才需要,得依不同ML应用的生命周期来设定。
Line跨部门上线100多个ML产品,自建管理工具仍不足
对Line来说,负责管理ML模型应用的就是机器学习开发部门。他们专门设计ML产品,来给不同单位使用。石河纯辉透露,他们至今已上线100多个ML产品,遍布内部20多个部门。为管理这些模型,Line机器学习部门也设置一系列MLOps工作流程和工具。
他们以K8s和自建的Hadoop丛集资料统一平台“IU”为主要运算环境,并自建Jupyter主机Jutopia来提供模型开发环境,让开发者用来分析资料、进行实验。同时,Line采用3套工作流程引擎如Airflow、Argo Workflows和Azkaban来处理批次工作,并以CI/CD工具ArgoCD、Drone CI进行模型部署派送工作。
除了使用开源工具,Line机器学习部门也自建了专属工具来管理AI模型,像是共用特征向量管理器,用来收集使用者行为日志和产品后设资料(Metadata),让不同ML专案也能使用这些共通性的资料。此外,还有一套内部函式库,来进行模型收集、分散式训练和推论、管理输入和输出,以及推荐自动化等工作,在测试工具上,也自建一套外部实验管理软件,来管理AB测试、生成推荐的展示等。
“这些工具解决了ML + Dev + Ops的大部分工作,”但石河纯辉话锋一转,唯独Ops中的模型表现监控尚未做到。
Line MLOps三大挑战:资料遗失、模型更新、手动监控
也因此,他坦言,随着自家上线的ML产品越多,监控成本越来越大,再加上Line当时的监控和通报机制是每个专案各自建置一套系统,在这种做法下,监控系统的效果不强,只能根据最少量的变动指标来通报。也因为没有一套好的监控系统,团队无法察觉资料缺失、模型输出值的变化等状况,甚至曾造成已上线ML模型停摆。
石河纯辉进一步分析,Line MLOps有三大痛点要克服。首先是资料缺失,当模型训练的资料发生遗漏或延迟发送,就会造成模型预测不佳,甚至产出无效预测值。举例来说,Line有套Email预测系统,每天根据外部单位传送的表格资料,来进行行为预测,再将预测结果回传给外部单位。若表格上的资料有缺漏,就会影响模型表现,没有好的监控系统,工程师也不会察觉异常,“这发生过几次了,”他说。
第二个痛点是模型更新。他回忆,团队曾经在模型架构更新时,忽略了新旧模型的预测值分布状况,即便新模型的预测值更准确,只要预测值分布明显改变,就会大幅影响个别使用者属性,给出截然不同的内容,降低使用者体验。“这种现象,当时要2个礼拜后才发现、改善,”石河纯辉强调。
第三个痛点则是手动监控问题。因为Line针对各专案,在Jupyter Notebook中建置了专属监控系统,来追踪模型指标、视觉化呈现结果。这个做法虽然方便,但手动收集的指标,只在当下有用,很难重复利用。而且,触发警报的条件只能套用简单规则,更是常常无法审查整体监控程式码的品质。
瞄准指标收集、异常侦测和视觉化,自建监控机制Lupus
为克服这些痛点,Line机器学习开发部门决定打造一款MLOps监控工具,要具备三要素,要能轻松收集指标、快速侦测异常,还要有友善的视觉化界面,让专案成员随时掌握模型动态。
这款工具就是Lupus,由三大部分组成,首先是建置Lupus主机,用来管理变动指标、提供异常侦测API,再来是一套Lupus函式库,可提供各种指标聚合工具和API客户端。最后是Lupus SPA应用程序,这是一款网页App,可视觉化图表来呈现指标状况和异常侦测结果,也内建验证功能和后设资料管理。
在这套ML模型监控系统中,指标收集任务启动后,Lupus函式库会随之启动,Lupus SPA也会同步显示指标状态。再来,Lupus主机作为入口点,所有请求都由这台主机处理,也负责授权验证工作。启动后,Lupus主机还会发送请求给不同Worker,平行执行指标收集工作和异常侦测工作。这些工作会使用前述的Airflow等工具来排程执行,而Lupus也有一套Worker机制来管理工作流程,以及记录后设资料。
Line自行打造的MLOps监测工具中,包含一套网页App:Lupus SPA,可让专案成员查看模型指标变化图表,让模型变动资讯更容易分享、讨论。图片来源_Line
至于收集到的指标和异常侦测资料,则长期储存于开源的资料仓储Hive,并利用开源搜索引擎ElasticSearch来提供资讯搜寻和视觉化呈现。
指标收集运作上,Lupus函式库可用来整合不同指标,将指标所需的资料推送到Lupus主机,主机再上传指标至S3相容的储存库,并提交收集工作至伫列。最后,工作流程工具会将资料储存于ElasticSearch和Hive中。石河纯辉指出,指标收集可用来衡量资料漂移、概念漂移,也能决定模型是否要替换。
而在异常侦测机制上,可以利用Lupus函式库的API来发送侦测请求,进而促发工作流程工具来读取储存于Hive的指标,开始进行侦测,并将异常资讯储存于ElasticSearch和Hive。这些都内建在Lupus函式库中,方便ML开发者容易整合到ML专案中。
最后,ML专案所有成员都可以利用Lupus SPA,在App上查看各指标的趋势图表和异常侦测结果,也能直接展开细节说明。石河纯辉总结,这套MLOps监控工具,让每日的指标收集工作更容易进行,也能侦测到之前未注意的异常,更能发现新洞察,像是模型准确度的变化,进而激发成员改善ML产品。此外,这个方法也让Line团队的监控程式码经层层审查,比过去的自制方式更可靠。而视觉化的网页App,则让团队更容易分享模型资讯,提高沟通效率。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- 淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款2024-10-01 13:01:28
- 哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰2024-10-01 11:22:38
- 白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时2024-09-27 09:10:44
- 北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑2024-06-28 10:07:40
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步2024-06-28 09:27:13
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
- 科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15