APP下载

微软开源多语言分散式机器学习函式库SynapseML

消息来源:baojiabao.com 作者: 发布时间:2024-11-24

报价宝综合消息微软开源多语言分散式机器学习函式库SynapseML

微软发布分散式机器学习开源函式库SynapseML,该函式库的特色在于能够大规模创建机器学习工作管线,SynapseML标准化各种机器学习框架,支援以不同的机器学习生态系元件,组成全新类别的机器学习系统。SynapseML让开发人员,不需要担心分散式机器学习工作管线的实作细节,在不需要更改程式码的情况,就能简单地部署至各种数据库、丛集和程式语言中。

微软提到,要建构用于生产的分散式机器学习工作管线通常很困难,即便对有经验的开发人员也不例外。组合不同生态系统的工具,通常需要大量的胶水程式码,来黏着不同的元件,更麻烦的是,许多框架在设计的时候,并没有考量千台机器的弹性丛集使用案例。

SynapseML的功能,便是能够将现有的机器学习框架,和新的算法统一到一个可以跨Python、R、Scala和Java的可扩展API,SynapseML可以用来建构各种可扩展的智慧系统中,包括异常检测、微服务调度或是模型可解释性等。

透过统一的API,能够大幅简化分散式机器学习的开发,微软表示,要开发可容错的分散式程序很复杂,而且是一个容易出错的过程,像是要进行深度网络的分散式评估,除了需要考量部署多GB级模型到数百台机器,而不瘫痪网络之外,资料读取器还必须确保所有资料都在处理伫列中,并且保持GPU满载,另外,还必须要处理当电脑加入或是离开丛集时,工作负载的重新平衡。

目前有部分框架,像是Horovod能够提供类似的管理功能,但是当开发团队想要使用不同的机器学习框架,诸如LightGBM、XGBoost或SparkML进行比较,就需要建构新的环境和丛集,而且因为这些训练系统的目的,都不是在提供服务或是部署模型,因此还需要独立的推理和串流架构。

SynapseML则能够以单一API来一统不同的机器学习框架,该API具有可扩展性,且独立于资料和各种语言,也能以不同的范式,包括批次、串流和提供应用程序的方式来运作,开发人员可以专注在资料和任务上,而不需要耗费心力在不同机器学习生态系统与数据库的实作细节中。

当开发人员需要建立多框架的使用案例时,SynapseML便能用来组合不同机器学习框架,并且在单节点、多节点和可弹性调整大小的电脑丛集上训练和评估模型。SynapseML的API除了可用于不同的程式语言之外,该API还对各种数据库、档案系统和云端资料储存进行抽象,无论资料储存于何处,开发者都能简单地进行实验。

2021-11-19 10:46:00

相关文章