A AWS confirmou na tarde de terça-feira que sua infraestrutura de nuvem havia se recuperado totalmente após uma enorme interrupção global que paralisou aplicativos, serviços e negócios por mais de 10 horas.
A interrupção, que começou mais cedo naquele dia, deixou usuários offline de Tóquio a Londres, bloqueando o acesso de pessoas ao Snapchat, Reddit, Venmo e Zoom, e paralisando as operações de milhares de empresas.
Este foi o maior fracasso da internet desde a queda da CrowdStrike, há cerca de um ano.
Segundo a Reuters, a plataforma em nuvem informou que tudo estava estável novamente às 15h, horário do Pacífico, embora alguns serviços ainda estivessem processando mensagens acumuladas.
A AWS, a espinha dorsal da internet para inúmeras empresas, admitiu que a falha foi causada por um monitor de integridade de rede defeituoso em sua rede interna EC2, uma parte fundamental do serviço Elastic Compute Cloud.
Esse sistema em nuvem deveria gerenciar o balanceamento de tráfego entre os servidores, mas, em vez disso, apresentou falhas e interrompeu o acesso ao DynamoDB, o banco de dados em nuvem que alimenta os dados dos usuários de diversos aplicativos. A causa principal estava relacionada a problemas de resolução de DNS, que basicamente impediam os aplicativos de encontrar os endereços corretos para acessar o banco de dados.
A interrupção afetou a região US-EAST-1 da AWS, que, aliás, é a sua maior e mais antiga zona de nuvem.
Esse data center específico, localizado na Virgínia, já foi responsabilizado por três grandes falhas na internet em apenas cinco anos, incluindo algumas em 2020 e 2021. A Amazon não explicou por que esse mesmo cluster continua apresentando falhas, mesmo sendo a região padrão para muitos usuários.
A AWS derruba aplicativos, bancos e companhias aéreas em todo o mundo
Venmo, Zoom e centenas de outros serviços ainda apresentavam instabilidades horas depois de a AWS ter afirmado que tudo estava normalizado. Na Grã-Bretanha, grandes instituições como o Lloyds Bank, o Bank of Scotland e a Vodafone foram afetadas. Até mesmo a Receita Federal britânica, a HMRC, ficou offline. Mais de 4 milhões de usuários registraram relatos de interrupções, segundo o Downdetector.
Os aplicativos de jogos foram afetados, com Fortnite, Clash Royale e Clash of Clans ficando fora do ar. Plataformas de criptomoedas como Coinbase e Robinhood também saíram do ar. A startup de inteligência artificial Perplexity confirmou que não conseguiu manter seus serviços funcionando durante a interrupção. O Prime Video da Amazon, a Alexa e seu principal site de compras também ficaram indisponíveis.
Entretanto, Meredith Whittaker,dent da Signal, publicou no X que o aplicativo de bate-papo seguro havia saído do ar. Elon Musk, proprietário do X, afirmou que sua plataforma permaneceu online.
A AWS lidera o mercado global de nuvem à frente do Microsoft Azure e do Google Cloud, mas demonstrou mais uma vez a fragilidade dessa dominância. A falha de um único monitor afeta o mundo inteiro.
Ken Birman, professor de ciência da computação na Universidade Cornell, afirmou que os desenvolvedores precisam parar de fazer gambiarras. "Quando as pessoas cortam custos e economizam em etapas para tentar colocar um aplicativo no ar, e depois se esquecem de que pularam a última etapa e não se protegeram adequadamente contra uma interrupção, essas empresas são as que realmente deveriam ser investigadas posteriormente", disse ele à Reuters. Ele acrescentou que a AWS já fornece ferramentas para proteger aplicativos, mas as empresas frequentemente as ignoram.
Jake Moore, consultor de cibersegurança da ESET, afirmou que a interrupção demonstrou o problema de concentrar tudo nas mãos de poucos provedores de nuvem. Nishanth Sastry, chefe de pesquisa do Departamento de Ciência da Computação da Universidade de Surrey, disse que o erro cometido por muitas empresas foi depender de um único provedor. As empresas precisam de redundância, não de lealdade cega.
Ryan Griffin, líder da área de cibersegurança da McGill and Partners, afirmou que o custo do tempo de inatividade não se resume à frustração do usuário. "Para grandes empresas, horas de inatividade na nuvem se traduzem em milhões em perda de produtividade e receita", disse ele.
Mesmo com toda a turbulência, Wall Street deu de ombros. As ações da Amazon subiram 1,6%, prestes a fechar o dia a US$ 220, seu maior valor em 3 meses.

