APP下载

脸书公布大当机始末报告:日常维护出错所引发的骨牌效应

消息来源:baojiabao.com 作者: 发布时间:2024-11-27

报价宝综合消息脸书公布大当机始末报告:日常维护出错所引发的骨牌效应
图片来源: 

脸书

在台北时间10月5日清晨,脸书发生了这几年最严重的当机事件,全球的脸书服务在同一时间断线,涵盖Facebook、Instagram与WhatsApp,影响全球逾35亿用户,且持续近7小时,负责工程与基础架构的脸书副总裁Santosh Janardhan随后公布了详细的肇事原因,而一切都是从例行性维护出错所引发的骨牌效应。

Janardhan解释,这次的故障是由一个管理脸书全球骨干网络能力的系统引起的。脸书透过骨干网络来连结所有的运算设备,它是由横跨全球之数十万英里长的光纤网络所组成,负责连结脸书的所有资料中心。

脸书的资料中心有着不同的形式,有些是安置数百万台机器的建筑物,这些机器用来存放资料,以及负责执行让脸书平台得以运作的运算任务,有些资料中心则是相对小型的设施,以将脸书的骨干网络连至全球网络及使用者。

因此,当使用者开启任一脸书家族的应用时,该应用程序会向最近的脸书设施请求资料,再借由骨干网络传送到大型资料中心,而这些资料流量的传递即是由路由器管理。

可想而知,脸书工程师的日常任务之一就是维护此一基础架构,而且经常要把骨干网络的一小部分移出网络,以修护光纤、新增能力,或者是更新路由器固件。

在5日凌晨时,脸书工程师展开了例行性维护,发布了一个命令来评估全球骨干网络能力的可得性,却不小心切断了骨干网络的所有连结,等于是让脸书全球的资料中心同时断网。其实脸书的系统具备稽核命令的功能,以预防类似的错误命令,但稽核工具中的臭虫却让它没能阻止此一错误命令。

接下来就发生了Cloudflare看到的事情了。Janardhan指出,虽然脸书的骨干网络断了,但它们的DNS服务器还是正常运作的,相关服务器负责回应DNS查询,也负责透过边界闸道协定(Border Gateway Protocol)向全球网络宣告自己的存在。

然而,为了确保可靠的运作,脸书的DNS服务器有一项设定,就是当它无法连结脸书的资料中心时,就会关闭BGP的宣告,于是,不管是Cloudflare的1.1.1.1、Google的8.8.8.8或是其它公共的DNS解析器,都无法在网络上发现Facebook、Instagram或WhatsApp的踪迹。

Janardhan说,一切都发生的太快了,且工程师在查明原因时又遇到了两项障碍:一是因为网络都断了而无法使用日常工具来存取资料中心,二是丧失了DNS也让原本用来调查及解决故障的内部工具失效。

于是脸书只好派出工程师到资料中心,企图手动解决问题并重启系统,但资料中心不管是实体或系统都嵌入了安全机制,一来不容易进入,二来就算进入了,其硬件与路由器原本的设计就提高了变更的门槛,因此又花了一点时间来启用安全存取规则,以让这些工程师能够修改资料中心里的服务器。

在脸书成功恢复骨干网络之后,另一个关键则是重启资料中心,瞬间重启所有服务可能会因流量与电力使用的骤增,而让系统再度崩溃。但脸书之前即曾进行多次的“风暴”(Storm)演习,模拟系统故障的场景,关闭服务、资料中心或整个区域的系统来进行压力测试,有了这些演习经验,让脸书在回复所有服务的环节上没有遭遇太多的问题。

在处理这个意外的时候,Janardhan也察觉了一件事,过去脸书不断地强化系统来防止未经授权的存取,但这些机制却也拖慢了脸书自己修复的脚步,即便如此,他依然相信这个取舍是值得的

2021-10-06 14:53:00

相关文章