Martedì pomeriggio AWS ha confermato che la sua infrastruttura cloud si è completamente ripristinata dopo che un'interruzione globale di massa ha bloccato app, servizi e attività per oltre 10 ore.
L'interruzione, iniziata quel giorno stesso, ha costretto gli utenti a spostarsi offline da Tokyo a Londra, impedendo loro di accedere a Snapchat, Reddit, Venmo e Zoom e paralizzando le attività di migliaia di aziende.
Si è trattato del più grande fallimento di Internet dopo il crollo di CrowdStrike di circa un anno fa.
Secondo Reuters, la piattaforma cloud ha dichiarato che tutto era di nuovo stabile alle 15:00, ora del Pacifico, anche se alcuni servizi stavano ancora funzionando nonostante i messaggi arretrati.
AWS, la spina dorsale di Internet per innumerevoli aziende, ha ammesso che il problema è stato causato da un malfunzionamento del monitor dello stato di salute della rete all'interno della sua rete interna EC2, una parte fondamentale del servizio Elastic Compute Cloud.
Quel sistema cloud avrebbe dovuto gestire il bilanciamento del traffico tra i server, ma invece si è rotto e ha bloccato l'accesso a DynamoDB, il database cloud che gestisce i dati utente di molte app. La causa principale era legata a problemi di risoluzione DNS, che sostanzialmente impedivano alle app di trovare gli indirizzi corretti per accedere a quel database.
L'interruzione ha colpito duramente la regione US-EAST-1 di AWS, che tra l'altro è la sua zona cloud più grande e più vecchia.
Quel particolare data center con sede in Virginia è stato ora ritenuto responsabile di tre gravi crash di Internet in soli cinque anni, tra cui quelli del 2020 e del 2021. Amazon non ha spiegato perché lo stesso cluster continua a non funzionare, nonostante continui a essere la regione predefinita per molti utenti.
AWS blocca app, banche e compagnie aeree in tutto il mondo
Venmo, Zoom e centinaia di altri servizi continuavano a presentare problemi anche a ore dopo che AWS aveva dichiarato che tutto era tornato alla normalità. In Gran Bretagna, importanti istituzioni come Lloyds Bank, Bank of Scotland e Vodafone sono state colpite. Persino l'autorità fiscale del paese, HMRC, è andata offline. Oltre 4 milioni di utenti hanno segnalato interruzioni, secondo Downdetector.
Le app di gioco sono state colpite duramente, con Fortnite, Clash Royale e Clash of Clans che hanno chiuso i battenti. Anche piattaforme di criptovalute come Coinbase e Robinhood sono andate offline. La startup di intelligenza artificiale Perplexity ha confermato di non essere riuscita a mantenere attivi i servizi durante l'interruzione. Anche Prime Video di Amazon, Alexa e il suo principale sito di shopping online sono rimasti offline.
Nel frattempo, Meredith Whittaker,dent di Signal, ha pubblicato su X un post in cui comunicava che l'app di chat sicura era inattiva. Elon Musk, proprietario di X, ha affermato che la sua piattaforma è rimasta online.
AWS è leader del mercato cloud globale, davanti a Microsoft Azure e Google Cloud, ma ha dimostrato ancora una volta quanto fragile possa essere questo dominio. Basta un monitor che non funziona e il mondo intero ne risente.
Ken Birman, professore di informatica alla Cornell University, ha affermato che gli sviluppatori devono smettere di prendere scorciatoie. "Quando le persone tagliano i costi e prendono scorciatoie per cercare di far funzionare un'applicazione, e poi dimenticano di aver saltato quell'ultimo passaggio e di non essersi realmente protette da un'interruzione, sono proprio quelle aziende che dovrebbero essere esaminate in seguito", ha dichiarato a Reuters. Ha aggiunto che AWS fornisce già strumenti per proteggere le app, ma le aziende spesso li ignorano.
Jake Moore, consulente per la sicurezza informatica di ESET, ha affermato che l'interruzione ha evidenziato il problema di affidare tutto a pochi provider cloud. Nishanth Sastry, responsabile della ricerca presso il Dipartimento di Informatica dell'Università del Surrey, ha affermato che l'errore commesso da molte aziende è stato quello di affidarsi a un solo fornitore. Le aziende hanno bisogno di ridondanza, non di cieca fedeltà.
Ryan Griffin, responsabile della pratica informatica presso McGill and Partners, ha affermato che il costo dei tempi di inattività non è dovuto solo alla frustrazione degli utenti. "Per le grandi aziende, ore di inattività del cloud si traducono in milioni di dollari in perdita di produttività e fatturato", ha affermato.
Nonostante tutti questi sconvolgimenti, Wall Street ha scrollato le spalle. Le azioni Amazon sono balzate dell'1,6%, chiudendo la giornata a 220 dollari, il massimo degli ultimi 3 mesi.

