AWS는 화요일 오후, 10시간 이상 앱, 서비스 및 비즈니스를 마비시켰던 대규모 글로벌 장애 이후 클라우드 인프라가 완전히 복구되었다고 확인했습니다.
이날 오전에 시작된 이번 장애로 도쿄에서 런던까지 전 세계 사용자들이 접속을 차단당했고, 스냅챗, 레딧, 벤모, 줌 등에 접속할 수 없게 되었으며, 수천 개 기업의 운영이 마비되었습니다.
이는 약 1년 전 크라우드스트라이크 시스템 장애 이후 최대 규모의 인터넷 마비 사태였다.
로이터 통신에 따르면 클라우드 플랫폼 측은 태평양 표준시 기준 오후 3시경 모든 시스템이 안정화되었다고 밝혔지만, 일부 서비스는 여전히 처리해야 할 메시지들이 쌓여 있는 중이라고 덧붙였다.
수많은 기업의 인터넷 기반 역할을 하는 AWS는 이번 오류가 자사 EC2 내부 네트워크 내의 네트워크 상태 모니터 고장으로 인해 발생했으며, 이는 엘라스틱 컴퓨트 클라우드 서비스의 핵심 구성 요소라고 인정했습니다.
해당 클라우드 시스템은 서버 간 트래픽 분산을 관리하도록 설계되었지만, 오히려 오류가 발생하여 많은 앱의 사용자 데이터를 저장하는 클라우드 데이터베이스인 DynamoDB에 대한 접근이 차단되었습니다. 근본적인 원인은 DNS 확인 문제로, 앱이 해당 데이터베이스에 접근하는 데 필요한 올바른 주소를 찾지 못하게 된 것이었습니다.
이번 장애는 AWS의 US-EAST-1 리전을 강타했는데, 참고로 이 리전은 AWS에서 가장 크고 오래된 클라우드 영역입니다.
버지니아에 위치한 해당 데이터 센터는 지난 5년 동안 세 차례의 주요 인터넷 장애의 원인으로 지목되었으며, 2020년과 2021년에도 장애가 발생했습니다. 아마존은 해당 데이터 센터가 여전히 많은 사용자의 기본 리전으로 사용되고 있음에도 불구하고 왜 계속해서 장애를 일으키는지에 대해서는 밝히지 않았습니다.
AWS로 인해 전 세계 앱, 은행, 항공사가 마비되었습니다
AWS가 정상화됐다고 발표한 후에도 벤모, 줌을 비롯한 수백 개의 서비스가 몇 시간 동안이나 오류를 일으켰습니다. 영국에서는 로이드 은행, 스코틀랜드 은행, 보다폰과 같은 주요 기관들이 영향을 받았고, 심지어 국세청(HMRC)까지 접속이 마비되었습니다. 다운디텍터에 따르면 400만 명이 넘는 사용자가 서비스 중단 신고를 접수했습니다.
포트나이트, 클래시 로얄, 클래시 오브 클랜 등 게임 앱들이 마비되는 사태가 발생했습니다. 코인베이스와 로빈후드 같은 암호화폐 플랫폼도 접속이 불가능해졌습니다. AI 스타트업 퍼플렉시티는 서비스 중단 사태 동안 서비스를 유지할 수 없었다고 밝혔습니다. 아마존의 프라임 비디오, 알렉사, 그리고 주요 쇼핑 웹사이트 또한 접속이 차단되었습니다.
한편, 시그널(Signal)의dent 메러디스 휘태커는 X에 보안 채팅 앱이 다운되었다고 게시했습니다. X의 소유주인 일론 머스크는 자신의 플랫폼은 정상적으로 작동했다고 주장했습니다.
AWS는 마이크로소프트 애저와 구글 클라우드를 제치고 글로벌 클라우드 시장을 선도하고 있지만, 이번 사태를 통해 그 지배력이 얼마나 취약한지 다시 한번 보여주었습니다. 모니터 하나가 고장 나면 전 세계에 영향을 미치는 것입니다.
코넬대학교 컴퓨터공학과 교수 켄 버먼은 말했습니다 . 그는 로이터 통신과의 인터뷰에서 "사람들이 비용을 절감하고 편법을 써서 애플리케이션을 빨리 출시한 다음, 마지막 단계를 건너뛰고 장애에 대비한 보호 조치를 제대로 취하지 않았다는 사실을 잊어버린다면, 나중에 진정으로 책임을 져야 할 쪽은 바로 그 회사들"이라고 말했습니다. 그는 AWS가 이미 애플리케이션 보호 도구를 제공하고 있지만, 기업들이 이를 무시하는 경우가 많다고 지적했습니다.
ESET의 사이버 보안 자문가인 제이크 무어는 이번 장애 사태가 소수의 클라우드 제공업체에 모든 것을 맡기는 것의 문제점을 보여준다고 말했습니다. 서리 대학교 컴퓨터 과학부 연구 책임자인 니샨트 사스트리는 많은 기업들이 저지른 실수는 단 하나의 제공업체에만 의존하는 것이라고 지적했습니다. 기업은 맹목적인 충성심이 아니라 백업 및 백업 시스템을 갖춰야 한다는 것입니다.
맥길앤파트너스의 사이버 보안 부문 책임자인 라이언 그리핀은 시스템 다운으로 인한 비용이 단순히 사용자 불편에만 그치지 않는다고 말했습니다. 그는 "대기업의 경우, 클라우드 시스템 다운 시간은 생산성 및 매출 손실로 수백만 달러에 달하는 손실을 초래한다"고 덧붙였습니다.
온갖 혼란 속에서도 월가는 태연한 모습을 보였다. 아마존 주가는 1.6% 급등하며 220달러로 장을 마감할 것으로 예상되며, 이는 3개월 만에 최고치다.

