事实上,这三大巨头在过去一年里都曾经发生过故障。去年2月,微软一个数据中心因冷却单元无法运作导致Azure瘫痪,影响全球许多服务中断超过16个小时,包括本地多个机构如中央公积金局、易通卡公司、滨海艺术中心等。去年4月,谷歌云在欧洲的部分客户服务因为巴黎数据中心发生火灾而瘫痪数周。去年6月,亚马逊网络服务故障导致《波士顿环球报》、纽约大都会运输管理局等网站数小时无法运作。
事件起因是网络安全公司CrowdStrike在推出软件更新时,没有经过严密测试就大规模推送,导致微软视窗用户大面积蓝屏死机,微软云服务也连带崩溃。一些国家如韩国和中国,似乎受到较小影响,主要因为它们对受影响平台的依赖程度较低。根据韩国科学和信息通信技术部2023年的数据,使用微软云平台的企业仅占24%。在中国,多数企业并未购买美国公司的安全软件,使用的是阿里巴巴、腾讯和华为等本土云计算供应商。
不论是企业或政府,都应该在平时就做好充分准备,认真对待每一场模拟演习。全球系统大宕机事件提醒我们,数码科技在现代社会中的关键作用及脆弱性,即使竭尽全力预防,此类事件仍可能发生,企业和政府必须制定和实施有效的业务连续性计划和风险管理程序,才能在全球高度互联的环境中,最大限度地减少因系统故障所带来的损失和影响。
第三方的服务器出问题不在用户的掌控当中,受影响的公司如何应对,便考验它们的危机管理和灾后复苏的能力。正如数码发展及新闻部长兼内政部第二部长杨莉明所提醒的,这次事件凸显我国一定要做好准备,必要时迅速落实应对措施,让受影响的系统和服务恢复正常。
躲过这次大瘫痪的很多企业或许只是因为侥幸,这类事件其实可能发生在任何一家云计算公司的服务器上。此次事件暴露全球科技系统过度依赖少数几家供应商的脆弱性。全球企业正转向云计算,越来越多企业不再拥有自己的基础设施,亚马逊云科技、微软Azure和谷歌云这三大巨头占据市场多达66%份额,任何一家的服务器出状况,都会引发全球范围大瘫痪。
在我国,机场登机手续、停车场闸门开关和报纸发行都受到波及。这场灾难凸显网络空间的相互关联性,现代社会高度依赖数码科技,一旦科技系统出现故障,整个社会的运作都会陷入瘫痪。
网安公司的疏失搞得全球系统大宕机,是人们始料不及的。过去的几次事件也说明,不是只有在发生网络袭击时网络才会瘫痪,人为疏失、技术故障、天灾人祸都可能导致系统中断。因此在数码经济时代,除了强调网安的重要性,制定一套有效的业务连续性计划(BCP)同样至关重要,绝对不可只依赖单一供应商,一定要有可迅速启动的后备系统,确保能迅速恢复运作。虽然这意味着更高成本,但这些投资不可省,尤其是在关键领域的公司。上周五的大宕机若影响本地银行或国防运作,后果将非常严重。
新加坡在此次事件中受影响程度相对较小,政府和必要服务大致未受影响,金融市场也正常运作,一些受影响的服务如邮政服务,在启动业务持续计划后快速恢复运作,但还是有一些企业需要更多时间复原。在这场危机过后,政府应与各机构检讨须改进之处。
上周五(7月19日)席卷全球的系统大宕机事故,初步估计造成超过10亿美元(约13亿5000万新元)的经济损失。此次事件被认为是史上最严重的科技故障之一,几乎没有一个行业不受业务中断的干扰。全球供应链受到打击,数千趟航班停飞或延误,10亿美元的损失恐怕只是冰山一角。