AWS 周二下午证实,其云基础设施已完全恢复,此前一场大规模的全球性故障导致应用程序、服务和业务冻结超过 10 小时。.
当天早些时候开始的网络中断导致从东京到伦敦的用户纷纷下线,Snapchat、Reddit、Venmo 和 Zoom 等应用无法使用,数千家公司的运营也因此瘫痪。.
这是自大约一年前 CrowdStrike 崩溃以来最大的互联网故障。.
据路透社报道,该云平台表示,太平洋时间下午 3 点一切恢复稳定,但部分服务仍在处理积压的消息。.
AWS 是无数企业互联网的支柱,该公司承认此次故障源于其 EC2 内部网络(弹性计算云服务的关键部分)中的网络健康监控器出现故障。.
该云系统本应负责管理服务器间的流量均衡,但却出现故障,导致 DynamoDB(为众多应用程序提供用户数据的云数据库)无法访问。根本原因在于 DNS 解析问题,该问题导致应用程序无法找到访问该数据库的正确地址。.
此次故障重创了 AWS 的美国东部 1 区,顺便一提,这是 AWS 最大、最古老的云区域。.
位于弗吉尼亚州的那个数据中心在短短五年内就被指责造成了三次重大互联网崩溃,其中包括2020年和2021年的那两次。亚马逊没有说明为什么同一个集群会不断出现故障,尽管它仍然是许多用户的默认区域。.
AWS导致全球应用程序、银行和航空公司瘫痪
即使AWS宣布服务已恢复正常数小时后,Venmo、Zoom和其他数百项服务仍然存在故障。在英国,劳埃德银行、苏格兰银行和沃达丰等主要机构也受到影响。甚至连英国税务海关总署(HMRC)的系统也一度瘫痪。据Downdetector统计,超过400万用户提交了服务中断报告。.
游戏应用遭到严重冲击,《堡垒之夜》、《皇室战争》和《部落冲突》等游戏全部宕机。加密货币平台如 Coinbase 和 Robinhood 也停止了服务。人工智能初创公司 Perplexity 证实,在此次宕机期间,其服务也无法维持。亚马逊旗下的 Prime Video、Alexa 以及其主要购物网站也均无法访问。.
与此同时,Signal 的dent 梅雷迪思·惠特克在 X 平台上发帖称,这款安全聊天应用宕机了。X 的所有者埃隆·马斯克则声称他的平台一直在线。.
AWS在全球云计算市场领先于微软Azure和谷歌云,但它如今再次表明,这种主导地位是多么脆弱。一个显示器出现故障,整个世界都会受到影响。.
康奈尔大学计算机科学教授肯·伯曼表示开发人员需要停止偷工减料。“当人们为了节省成本、偷工减料而试图尽快推出应用程序,却忘记了他们跳过了最后一步,没有真正做好应对宕机的防护措施时,这些公司才是真正应该受到审查的对象。”他告诉路透社。他还表示,AWS已经提供了保护应用程序的工具,但企业往往忽视了这些工具。
ESET网络安全顾问杰克·摩尔表示,此次宕机事件凸显了将所有业务都交给少数几家云服务提供商所带来的问题。萨里大学计算机科学系研究主管尼尚特·萨斯特里指出,许多公司犯的错误在于只依赖一家服务提供商。企业需要的是冗余备份,而不是盲目的忠诚。.
麦吉尔合伙公司网络安全业务负责人瑞安·格里芬表示,宕机造成的损失不仅仅是用户体验不佳。“对于大型企业而言,云端宕机数小时意味着数百万美元的生产力和收入损失。”他说道。.
尽管市场动荡不安,华尔街却反应冷淡。亚马逊股价上涨1.6%,即将收于220美元,创下三个月来的新高。.

