脸书公布大当机始末报告：日常维护出错所引发的骨牌效应最新消息

脸书公布大当机始末报告：日常维护出错所引发的骨牌效应

消息来源:baojiabao.com 作者: 发布时间：2024-11-27

报价宝综合消息脸书公布大当机始末报告：日常维护出错所引发的骨牌效应

图片来源:

脸书

在台北时间10月5日清晨，脸书发生了这几年最严重的当机事件，全球的脸书服务在同一时间断线，涵盖Facebook、Instagram与WhatsApp，影响全球逾35亿用户，且持续近7小时，负责工程与基础架构的脸书副总裁Santosh Janardhan随后公布了详细的肇事原因，而一切都是从例行性维护出错所引发的骨牌效应。

Janardhan解释，这次的故障是由一个管理脸书全球骨干网络能力的系统引起的。脸书透过骨干网络来连结所有的运算设备，它是由横跨全球之数十万英里长的光纤网络所组成，负责连结脸书的所有资料中心。

脸书的资料中心有着不同的形式，有些是安置数百万台机器的建筑物，这些机器用来存放资料，以及负责执行让脸书平台得以运作的运算任务，有些资料中心则是相对小型的设施，以将脸书的骨干网络连至全球网络及使用者。

因此，当使用者开启任一脸书家族的应用时，该应用程序会向最近的脸书设施请求资料，再借由骨干网络传送到大型资料中心，而这些资料流量的传递即是由路由器管理。

可想而知，脸书工程师的日常任务之一就是维护此一基础架构，而且经常要把骨干网络的一小部分移出网络，以修护光纤、新增能力，或者是更新路由器固件。

在5日凌晨时，脸书工程师展开了例行性维护，发布了一个命令来评估全球骨干网络能力的可得性，却不小心切断了骨干网络的所有连结，等于是让脸书全球的资料中心同时断网。其实脸书的系统具备稽核命令的功能，以预防类似的错误命令，但稽核工具中的臭虫却让它没能阻止此一错误命令。

接下来就发生了Cloudflare看到的事情了。Janardhan指出，虽然脸书的骨干网络断了，但它们的DNS服务器还是正常运作的，相关服务器负责回应DNS查询，也负责透过边界闸道协定（Border Gateway Protocol）向全球网络宣告自己的存在。

然而，为了确保可靠的运作，脸书的DNS服务器有一项设定，就是当它无法连结脸书的资料中心时，就会关闭BGP的宣告，于是，不管是Cloudflare的1.1.1.1、Google的8.8.8.8或是其它公共的DNS解析器，都无法在网络上发现Facebook、Instagram或WhatsApp的踪迹。

Janardhan说，一切都发生的太快了，且工程师在查明原因时又遇到了两项障碍：一是因为网络都断了而无法使用日常工具来存取资料中心，二是丧失了DNS也让原本用来调查及解决故障的内部工具失效。

于是脸书只好派出工程师到资料中心，企图手动解决问题并重启系统，但资料中心不管是实体或系统都嵌入了安全机制，一来不容易进入，二来就算进入了，其硬件与路由器原本的设计就提高了变更的门槛，因此又花了一点时间来启用安全存取规则，以让这些工程师能够修改资料中心里的服务器。

在脸书成功恢复骨干网络之后，另一个关键则是重启资料中心，瞬间重启所有服务可能会因流量与电力使用的骤增，而让系统再度崩溃。但脸书之前即曾进行多次的“风暴”（Storm）演习，模拟系统故障的场景，关闭服务、资料中心或整个区域的系统来进行压力测试，有了这些演习经验，让脸书在回复所有服务的环节上没有遭遇太多的问题。

在处理这个意外的时候，Janardhan也察觉了一件事，过去脸书不断地强化系统来防止未经授权的存取，但这些机制却也拖慢了脸书自己修复的脚步，即便如此，他依然相信这个取舍是值得的。

2021-10-06 14:53:00