APP下载

AI趋势周报第176期:Uber数百PB资料分析全靠开源平台,如何思考省钱战略?

消息来源:baojiabao.com 作者: 发布时间:2024-11-29

报价宝综合消息AI趋势周报第176期:Uber数百PB资料分析全靠开源平台,如何思考省钱战略?

Uber列出开源平台大数据分析省钱战略,锁定供应、需求、平台效率等三部分,来着手改善。

图片来源: 

屏幕截图

重点新闻(0903~0909)

Uber     开源平台     大数据分析  

Uber数百PB资料分析全靠开源平台,如何思考省钱战略?

大数据分析是Uber业务的核心,他们仰赖AI、ML和大数据分析来优化顾客体验。在过去四年来,Uber资料量从几PB暴增至上百PB,全仰赖Hadoop、Kafka、Spark和Hive等开源平台来分析。这是因为,开源软件能快速扩展、满足业务需求,让团队不必闭门造车。

但Uber坦言,大数据分析平台是自家三大平台中最烧钱的工具。于是,Uber采取一套省钱战略,先在2019年底节省数百万美元的硬件成本,再于2020年初,制定未来两年的成本节省蓝图,来降低大数据分析支出。

这个省钱战略锁定供应(Supply)、需求(Demand)和平台效率三部分。供应是指执行大数据储存和运算所需的硬件资源,比如本地端与云端运算、灾难复原架构。Uber成立11年来,大部分运算工作都在本地端资料中心执行,只有少数专案在云端执行。对他们来说,上云能不能明显降低硬件成本,是第一个要思考的议题。团队认为,本地端搭配适度的云端运算,能有效降低成本。而在灾难复原设计上,Uber采用AA架构来确保运算不中断,但也因此产生两倍运算成本,这是他们面临的另一挑战。

在需求部分,Uber考量的是运算工作负载,像是多租户问题。Uber大数据分析平台拥有数千名内部使用者,包括后端工程师、产品工程师、ML 工程师、数据工程师与分析师、资料科学家、产品经理、业务分析师等,他们来自不同部门、从事不同业务。

这么庞大复杂的用户群,也让资源利用效率不彰,比如Uber无法深入了解所有使用情况,或因大数据储存、运算能力有限,因此难以决定优先给哪些使用者资源,也难以决定哪些使用者该为此付费。

平台效率部分则考虑P99和硬件资源的平均使用率。Uber用P99利用率来描述在丛集中的高负载节点比率,他们认为,低延迟系统需要低P99值,来避免花更多时间处理请求和查询,但P99却有可能比硬件平均使用率高上好几倍,在硬盘空间使用率、CPU/内存使用率、网络使用率等场景都会发生,影响处理效率。他们的目标,是要缩短P99和平均使用率的差距,来让机器资源有效运用。

归纳出这些原因后,Uber从这三大领域下手,展开一系列的开源平台省钱实验。(详全文)

  资料管理      Tableau    扩展性  

继无程式码ML功能后,Tableau再添企业级资料管理功能

Salesforce旗下数据分析工具Tableau透露,即将推出的2021.3版将新添资料管理和平台扩展功能。

在资料管理部分,使用者现可在Tableau Catalog中,直接在网页创作流程中查看衍生描述(Inherited descriptions)。使用者也能透过Email订阅,来掌握资料品质警示,能直接从Email连结打开仪表板,查看品质受影响的资讯。再来,Tableau资料流程管理工具Prep Conductor也新增加了多任务排程功能,除此之外,Prep Conductor也能利用日期、时间、整数值来判断资料表中遗漏的笔数,来帮助使用者补填资料、完善资料集。

Tableau也预告,今年还将推出企业级架构新功能,明年初则将推出资源管理、支援容器的动态扩充功能。进一步来说,企业级架构具阶层结构的拓朴,能让IT团队标准化部署Tableau,来实现可用性、安全性、合规性以及可扩展性。在这个架构中,服务器应用功能的每一层,都受到子网的保护和控管,不论企业是部署在本地端还是云端,是用VM还是容器,都能灵活地跨子网管理、扩展分层架构。(详全文)

  医疗AI     可解释性     联合学习  

北荣AI推手呼吁,医疗AI下一步瞄准可解释性、可信任的FL

北荣近年来打造了四大科别的AI医疗诊断工具,范围横跨心脏科、神经外科、骨科和眼科,比如心房颤动复发率预测、脊椎节骨折之确切位置预测、青光眼和视网膜病变预测等,这些AI系统,已在北荣AI门诊实际派上用场。

开发这些AI门诊专用系统的核心成员、交大阳明统计学研究所教授卢鸿兴在5日智慧医疗高峰会上指出,这些AI工具的判读时间可比医师快,像是从25张电脑断层扫描(CT)影像辨识心房颤动来源只需15秒,从1张彩色眼底镜分类是否罹患青光眼只需15秒。

但他强调,医疗AI接下来要重视可解释性的AI(即XAI),来说明模型判断的依据,并纳入医学教科书中的新章节。同时,他也呼吁发展可信任的联合学习(FL),透过整合多家医院、多位医师的专业知识,产出更好的AI系统,来超越“一位医师、一家医院的经验。”

  Google    分层神经       遮罩  

连细节都能分离!Google用分层神经开发影片图像遮罩新方法

连细节都能分离!Google开发一种产生图像和影片遮罩的新方法,利用分层神经渲染,将影片中的物体和背景分开,产生Omnimatte遮罩。有别于传统方法,这个遮罩不仅能分离物体本身,还能分离与物体相关的细节,比如影子、部分透明的软效果,甚至是轮胎摩擦地面产生的烟雾。与传统遮罩相同的地方是,Omnimatte为RGBA图像,因此能够用于广泛的图像和影片编辑工具。

另一方面,Omnimatte也能控制物体在影片中出现的时间(Retime)。研究团队指出,这项效果常用于电影,但传统方法必须在受控的环境中执行,而分解成为Omnimatte后,即便是日常影片,也能简单操纵物体时序,只需更改每一个图层的播放速度,就能达到过去必须要对每个物体重新拍摄才能达到的效果,且由于Omnimatte是标准的RGBA图像,因此能使用传统的影片编辑软件来编辑物体时间轴。(详全文)

  机器学习平台     低延迟     Vertex AI  

IoT资料回传更即时,Google机器学习平台Vertex AI开始支援私有端点

Google机器学习平台Vertex AI上新添私有端点(Private Endpoints)功能,透过VPC对等连结,用户可配置专用的连接与端点通讯,资料不必经过公开的互联网就能运算、预测,如此也更安全、更快速。

Vertex AI是Google在今年发布的全托管机器学习平台,要来简化企业部署和维护机器学习模型工作。为解决即时机器学习模型预测的延迟问题,他们利用VCP对等连接来提供低延迟的网络连接,降低系统收到请求的时间,还可以创建私有端点,让资料永不穿过互联网来提高安全性。Google指出,在私有端点部署模型的额外开销很小,且效能几乎与在GKE或GCE的服务相同。(详全文)

  Nvidia     语音合成     Flowtron  

Nvidia新技术连语音都合成得唯妙唯肖

Nvidia应用深度学习研究部门副总裁Bryan Catanzaro盘点Nvidia对话式AI成果,如轻量级语音合成系统、专属资料集、降噪模型,以及GTC大会登场AI旁白系统Flowtron。Flowtron中有套关键的文字转语音模型RAD-TTS,不只能产生语音,还能转换语音风格。开发时,团队借镜语音合成重要技术自回归流概念,以此改善经典语音合成模型Tacotron,来提高语音合成品质。

另比如,RAD-TTS能更好地控制音高、音调、语速、节奏和口音,甚至能转换声音,将A男说话的声音同步转换为B女,并保留A男说话的特征。如此一来,使用者可录制自己读出的影片脚本,再用Flowtron将说话内容改变为不同性别的声音,或是透过系统调整合成语音,来强调特定字眼或放慢节奏。Bryan Catanzaro指出,这个AI模型不只用于配音,还能用在游戏、协助语言机能障碍者理解,甚至能以使用者自己的声音,翻译成不同语言。(详全文)

 

 

图片来源/Uber、卢鸿兴、Tableau、Google、Nvidia

 AI趋势近期新闻 

1. Automation Anywhere发布RPA成熟度工具

2. 知名语言学习厂商Duolingo用AI配对学习资源

3. Boston Dynamics分享人形机器人的技术挑战

资料来源:iThome整理,2021年9月

2021-09-09 16:47:00

相关文章