Во вторник днем компания AWS подтвердила, что ее облачная инфраструктура полностью восстановилась после масштабного глобального сбоя, который более 10 часов парализовал приложения, сервисы и работу предприятий.
Сбой, начавшийся ранее в тот же день, отключил пользователей от сети от Токио до Лондона, лишив доступа к Snapchat, Reddit, Venmo и Zoom и парализовав работу тысяч компаний.
Это был крупнейший сбой в работе интернета со времен краха CrowdStrike около года назад.
По сообщению Reuters, облачная платформа заявила, что к 15:00 по тихоокеанскому времени все снова стабилизировалось, хотя некоторые сервисы все еще работали с накопившимися сообщениями.
AWS, являющаяся основой интернета для бесчисленного количества предприятий, признала, что сбой произошел из-за неисправности монитора состояния сети внутри ее внутренней сети EC2, ключевой части сервиса Elastic Compute Cloud.
Эта облачная система должна была управлять распределением трафика между серверами, но вместо этого она вышла из строя и заблокировала доступ к DynamoDB, облачной базе данных, которая хранит пользовательские данные для многих приложений. Первопричина была связана с проблемами разрешения DNS, которые, по сути, блокировали приложениям возможность находить правильные адреса для доступа к этой базе данных.
Сбой затронул регион AWS US-EAST-1, который, кстати, является крупнейшей и старейшей облачной зоной компании.
Этот конкретный дата-центр в Вирджинии уже трижды обвиняли в крупных интернет-сбоях за последние пять лет, включая сбои в 2020 и 2021 годах. Amazon не объяснила, почему этот же кластер продолжает выходить из строя, хотя он по-прежнему является регионом по умолчанию для многих пользователей.
AWS парализует работу приложений, банков и авиакомпаний по всему миру
Спустя несколько часов после заявления AWS о нормализации ситуации Venmo, Zoom и сотни других сервисов продолжали работать с перебоями. В Великобритании пострадали такие крупные учреждения, как Lloyds Bank, Bank of Scotland и Vodafone. Даже налоговая служба страны, HMRC, перестала работать. По данным Downdetector, более 4 миллионов пользователей подали сообщения о сбоях.
Игровые приложения оказались недоступны: Fortnite, Clash Royale и Clash of Clans перестали работать. Криптовалютные платформы, такие как Coinbase и Robinhood, также отключились. Стартап в области искусственного интеллекта Perplexity подтвердил, что не смог поддерживать работу своих сервисов во время сбоя. Собственный сервис Amazon Prime Video, Alexa и основной сайт для покупок также были недоступны.
Тем временем Мередит Уиттакер,dent Signal, сообщила на платформе X, что защищенное приложение для чата перестало работать. Илон Маск, владелец X, заявил, что его платформа осталась в сети.
AWS лидирует на мировом рынке облачных вычислений, опережая Microsoft Azure и Google Cloud, но сейчас компания в очередной раз продемонстрировала, насколько хрупким может быть это доминирование. Один монитор выходит из строя, и это чувствует весь мир.
Кен Бирман, профессор информатики в Корнельском университете, заявил, что разработчикам нужно перестать экономить на качестве. «Когда люди сокращают расходы и идут на компромиссы, чтобы запустить приложение, а затем забывают, что пропустили этот последний шаг и не обеспечили надлежащую защиту от сбоев, именно такие компании заслуживают более пристального внимания», — сказал он Reuters. Он добавил, что AWS уже предоставляет инструменты для защиты приложений, но компании часто их игнорируют.
Джейк Мур, консультант по кибербезопасности в компании ESET, заявил, что сбой продемонстрировал проблему, связанную с тем, что все функции находятся в руках нескольких облачных провайдеров. Нишант Састри, руководитель исследовательского отдела кафедры компьютерных наук Университета Суррея, сказал, что многие компании совершили ошибку, полагаясь только на одного поставщика. Бизнесу нужна резервная система, а не слепая лояльность.
Райан Гриффин, руководитель отдела кибербезопасности в компании McGill and Partners, заявил, что стоимость простоя заключается не только в недовольстве пользователей. «Для крупных компаний многочасовой простой в облачных сервисах означает миллионные потери производительности и доходов», — сказал он.
Несмотря на все потрясения, Уолл-стрит отреагировала спокойно. Акции Amazon подскочили на 1,6% и к концу дня достигнут отметки в 220 долларов, самого высокого уровня за 3 месяца.

