아마존 웹 서비스(AWS)는 스냅챗, 벤모, 로빈후드, 코인베이스, 넷플릭스, 심지어 여러 항공사와 은행을 포함한 세계에서 가장 많이 사용되는 플랫폼들이 마비되는 대규모 글로벌 장애 이후 시스템을 복구하기 위해 하루 종일 사투를 벌였습니다.
아마존은 해당 문제가 EC2 내부 네트워크 깊숙한 곳에서 시작되어 클라우드 백본에 의존하는 서비스를 마비시켰다고 설명했습니다. Cryptopolitan 앞서 보도된 바와 같이 , 이번 정전 사태는 월요일 새벽부터 시작되어 계속 확산되고 있으며, 즉각적인 해결책은 아직 보이지 않습니다.
인터넷 연결 문제 모니터링 사이트인 다운디텍터(Downdetector)는 보도 시점 현재 2,500개 이상의 기업에 영향을 미치는 연결 문제 관련 보고를 1,100만 건 이상 접수했습니다.
기업들은 완전한 마비 상태를 겪었다고 설명했습니다. 결제가 실패하고, 고객 포털이 마비되었으며, 심지어 AWS 기반 자동화 시스템과 연결된 공장 시스템까지 작동을 멈췄습니다.
전문가들은 현재 전 세계 무역의 상당 부분이 아마존의 인프라를 통해 이루어지고 있다는 점을 고려할 때, 재정적 손실이 수천억 달러에 달할 수 있다고 경고했습니다.
아마존은 엔지니어들이 EC2와 Lambda 문제 해결을 위해 노력하는 동안에도 오류가 계속 발생하고 있음을 확인했습니다
아마존은 일련의 업데이트를 통해 고객들에게 "모든 AWS 서비스에서 복구가 진행 중"이라고 알렸지만, 사용자들이 여전히 "간헐적인 기능 오류"를 겪을 수 있다고 인정했습니다. 아마존은 인터넷의 상당 부분을 지원하는 핵심 허브인 US-EAST-1 지역의 여러 가용 영역에서 인스턴스 시작이 다시 성공적으로 이루어지기 시작했다고 밝혔습니다.
아마존은 람다 컴퓨팅 서비스 내부의 문제점도 자세히 설명하며, 일부 사용자가 네트워크 요청 시 일시적인 오류를 경험했다고 밝혔습니다. 아마존은 "람다 호출 오류를 복구하기 위해 SQS 폴링 속도를 늦췄다"고 설명했습니다. 엔지니어들은 "더 성공적인 호출과 오류 감소"를 확인한 후 폴링 속도를 다시 높이고 있다고 덧붙였습니다
회사 측은 EC2 인스턴스 시작 실패 문제가 점차 완화되고 있다고 덧붙였습니다. 아마존은 "새로운 EC2 인스턴스 시작 실패 문제를 해결하기 위한 완화 조치가 지속적으로 진전되고 있다"며, 최종 사용자 근처에서 클라우드 운영을 처리하는 Lambda@Edge 역시 "상당한 개선"을 보이고 있다고 밝혔습니다
보안 전문가들은 사이버 공격 가능성에 대한 추측을 잠재우기 위해 신속하게 움직였습니다. 보안 업체 사이스의 최고경영자 브라이슨 보트는 알자지라와의 인터뷰에서 이번 상황은 해킹이나 스파이 행위의 결과가 아니라고 밝혔습니다.
"이런 헤드라인을 볼 때마다 사람들은 사이버 공격이라고 생각합니다."라고 브라이슨은 말했다. "하지만 이번 경우는 그렇지 않습니다. 대부분의 경우에도 사이버 공격이 아닙니다. 대개는 인적 오류입니다."
디지털 권리 옹호자들은 클라우드 거대 기업에 대한 과도한 의존이 위험하다고 경고합니다
이번 인터넷 장애는 인터넷의 취약성과 소수의 거대 기술 기업에 권력이 집중된 문제에 대한 광범위한 논의를 촉발했습니다. 디지털 권리 단체인 아티클 19는 AWS 붕괴를 "민주주의의 실패"라고 규정했습니다
아마존의 디지털 전략 책임자인 코린 캐스-스페스는 유사한 사태를 막기 위해 클라우드 컴퓨팅 분야의 다변화가 필요하다고 경고했다. 그녀는 "민주적 담론,dent 언론, 그리고 안전한 통신을 뒷받침하는 기반 시설은 소수의 기업에 의존해서는 안 된다"고 말했다.
재정적 손실 규모는 아직 집계 중이지만, CNN은 trac 회사 인 캐치포인트의 CEO 메흐디 다우디의 말을 인용해 손실액이 수천억 달러에 달할 수 있다고 보도했습니다
메흐디는 "이번dent 인터넷의 복잡성과 취약성을 여실히 보여준다"며, "수백만 명의 근로자가 업무를 수행할 수 없어 생산성 손실이 발생하고, 항공사부터 공장에 이르기까지 사업 운영이 중단되거나 지연됨에 따라 재정적 영향은 수천억 달러에 달할 것"이라고 말했다
월요일 늦게 아마존은 복구 노력이 진전되고 있다고 밝혔지만, 많은 기업들이 여전히 어려움을 겪고 있다고 전했습니다. 스냅챗, 벤모, 코인베이스와 같은 플랫폼들은 여전히 속도 저하와 서비스 중단을 보고하고 있었습니다.
인터넷에 연결된 전 세계 대부분의 사람들에게 이번 장애는 암호화폐 거래부터 글로벌 물류에 이르기까지 모든 것이 아마존 데이터 센터 몇 곳의 운영에 얼마나 깊이 의존하고 있는지를 다시 한번 뼈아프게 일깨워주는 계기가 되었습니다.

