APP下载

AutoML自动训练模型不稀奇,国泰金控打造专属工具能从海量资料表自动锁定关键资讯

消息来源:baojiabao.com 作者: 发布时间:2024-11-28

报价宝综合消息AutoML自动训练模型不稀奇,国泰金控打造专属工具能从海量资料表自动锁定关键资讯

国泰金控资料科学团队说明未来AI资料分析自动化蓝图,目前已有专属AutoML工具自动执行特征功能、模型选择和训练,也有一套特征搜寻工具Tumblebug能自动找出关键资料,未来还要加上图学数据库和AutoGraph工具,更要导入因果推论框架。

图片来源: 

国泰金控

国泰金控日前在自家技术年会上揭露一款AI资料分析专用工具Tumblebug,能根据使用者需求,自动从数据库海中捞出所需资料,补足AutoML最后一哩路。不只如此,他们还正打造图学数据库,要来解决更复杂的金融问题,未来还要导入因果推论机制,让AI更聪明判断资料因果特征。

资料分析四步骤耗时耗力,自建AutoML工具来分担

国泰金控的AI资料分析流程可分为四大步骤,首先是问题定义,由资料科学团队一来一往与业务单位沟通,将业务问题收敛为分析问题。接着,资料科学团队会从庞大数据库中,找出相关资料,比如透过目标标签(Target label),从金控内数个数据库、数千张资料表、数十万个字段中,锁定出关键资讯,特别耗费人力与时间。

下一个步骤则是特征工程,针对第二步找到的特征和资料,来清洗数据,如资料填补、转换、聚合和精炼等。最后一步是模型选择和训练,通常,这个步骤需要资料科学家调超参数、选模型,也需投入不少时间和人力。

国泰金控资料科学团队手上会有多个专案要同时执行,每一个专案都得执行这四步骤,这也导致,每位分析师、资料科学家很难有充沛时间来寻找更好的模型。

近年也出现不少AutoML工具来解决问题,尤其能自动化执行特征工程和模型选择与训练作业,比如资料清洗和超参数调整,可以节省资料科学团队许多时间。

国泰金控也自行开发一套AutoML工具,也就是AutoMLab,来自动化这些流程。它是一套基于大数据分析平台Spark分散式运算的AutoML套件,能快速协助使用者,利用特征资料表来建立机器学习处理流程。国泰金控指出,AutoMLab的最大特点是,能根据内部使用者反应,来快速迭代、调整产品,还能根据使用者需求开发相应功能。

至此,国泰金控已将资料分析四大步骤的后两步自动化了,接下来,他们瞄准第二步骤:取得相关资料也要更自动化。

打造Tumblebug从数据库海捞出关键资讯

国泰金控表示,以往资料科学团队在取得资料时,会面临不少问题,比如只能搜寻特定资料,只根据特定领域知识锁定少数资料表,来搜寻特征,无法有效利用历年累积的海量资料;这种工作非常耗费人力,而且,一旦遇上过去没处理过的专案题目,若分析人员没有足够的专案知识,就难以从数据库中找出所需特征。

因此,国泰金控资料科学团队开发一套工具Tumblebug,是基于Spark的特征搜寻套件,能根据预测目标,来从海量资料表中找出符合的特征,整理成一张资料表,供使用者后续建模分析。

Tumblebug如何派上用场呢?

首先是处理新兴领域问题。比如,团队有明确的预测问题,但不知道要找哪些特征,就可使用Tumblebug来搜寻特征。或是,分析师要加入更多特征时,也能用Tumblebug从全行数据库搜寻特征,不再局限于少量资料表。又或是,当分析师想快速了解、验证分析问题时,也能用Tumblebug快速找出特征、评估专案可行性。

国泰金控指出,Tumblebug不只能发掘未知逻辑、重要变数,提高资料表使用率外,还能缩短搜寻时间。比如,只要给定预测目标,Tumblebug就能在数小时内,从数据库海找出重要特征。而且,Tumblebug已经经过国泰20多个预测专案实务验证。

正打造图学数据库,还要建置因果推论让AI更聪明

至此,国泰金控AI资料分析流程中,除了第一步的需求访谈外,其余取得相关资料、特征工程、模型选择与训练等步骤都已能自动化执行,使用者也能根据自身需求,来选择人工介入程度。

比如可采用全自动方式,先透过Tumblebug搜寻特征,再利用AutoMLab自动建模;又或是利用自身领域知识,从数据库中寻找特征,再结合Tumblebug找出的特征,传送至AutoMLab来建模。

不只如此,国泰金控也正打造一套图学(Graph)数据库,要将客户金流网络、关系网络转换为图学资料,储存至图学数据库中,有别于以往只储存结构化资料的数据库。未来,国泰金控还要打造AutoGraph工具,来自动化执行图学模型的建置与训练,分析师就能用图学技术解决更复杂的金融问题。

这样还不够。

国泰金控认为,目前的AI虽能准确辨识某些模式,但对显而易见的因果关系,却无法正确推论。因此,他们锁定因果推论(Casual Inference),未来要在寻找资料、模型训练流程中,加入因果推论方法,找出资料间的因果特征,让训练出来的AI能像人类一样推断。

2021-09-29 11:51:00

相关文章