AWS a confirmé mardi après-midi que son infrastructure cloud avait entièrement récupéré après une panne mondiale massive qui a paralysé les applications, les services et les entreprises pendant plus de 10 heures.
La perturbation, qui a débuté plus tôt dans la journée, a déconnecté des utilisateurs de Tokyo à Londres, les empêchant d'accéder à Snapchat, Reddit, Venmo et Zoom, et paralysant les opérations de milliers d'entreprises.
Il s'agit du plus gros échec d'Internet depuis la faillite de CrowdStrike il y a environ un an.
Selon Reuters, la plateforme cloud a indiqué que tout était redevenu stable à 15h00, heure du Pacifique, même si certains services traitaient encore un grand nombre de messages en attente.
AWS, l'épine dorsale d'Internet pour d'innombrables entreprises, a admis que le problème provenait d'un dysfonctionnement du système de surveillance de l'état du réseau au sein de son réseau interne EC2, un élément clé du service Elastic Compute Cloud.
Ce système cloud est censé gérer la répartition du trafic entre les serveurs, mais il est tombé en panne, bloquant l'accès à DynamoDB, la base de données cloud qui alimente les données utilisateur de nombreuses applications. La cause première était liée à des problèmes de résolution DNS, empêchant les applications de trouver les adresses nécessaires pour accéder à cette base de données.
La panne a touché la région US-EAST-1 d'AWS, qui est d'ailleurs sa zone cloud la plus grande et la plus ancienne.
Ce centre de données spécifique situé en Virginie a été mis en cause dans trois pannes majeures d'Internet en seulement cinq ans, dont certaines en 2020 et 2021. Amazon n'a pas expliqué pourquoi ce même cluster continue de tomber en panne, alors même qu'il reste la région par défaut pour de nombreux utilisateurs.
AWS provoque des pannes d'applications, de banques et de compagnies aériennes dans le monde entier
Venmo, Zoom et des centaines d'autres services présentaient encore des dysfonctionnements plusieurs heures après qu'AWS ait annoncé un retour à la normale. Au Royaume-Uni, des institutions majeures comme Lloyds Bank, Bank of Scotland et Vodafone ont été touchées. Même l'administration fiscale britannique, le HMRC, a été mise hors service. Plus de 4 millions d'utilisateurs ont signalé des pannes, selon Downdetector.
Les applications de jeux ont été fortement perturbées : Fortnite, Clash Royale et Clash of Clans sont tombés en panne. Les plateformes de cryptomonnaies comme Coinbase et Robinhood ont également été hors service. La startup spécialisée en intelligence artificielle Perplexity a confirmé être dans l'incapacité de maintenir ses services pendant la panne. Amazon Prime Video, Alexa et son site d'achat principal étaient également inaccessibles.
Entre-temps, Meredith Whittaker,dent de Signal, a annoncé sur X que l'application de messagerie sécurisée était hors service. Elon Musk, propriétaire de X, a affirmé que sa plateforme restait accessible.
AWS domine le marché mondial du cloud devant Microsoft Azure et Google Cloud, mais vient une fois de plus de démontrer la fragilité de cette position dominante. Une panne d'un seul écran et c'est le monde entier qui en ressent les conséquences.
Ken Birman, professeur d'informatique à l'université Cornell, a déclaré que les développeurs devaient cesser de négliger les bonnes pratiques. « Lorsque des entreprises réduisent les coûts et font des compromis pour mettre une application en service au plus vite, et oublient ensuite qu'elles ont sauté une étape cruciale et ne se sont pas protégées contre les pannes, ce sont ces entreprises qui devraient être examinées de près par la suite », a-t-il déclaré à Reuters. Il a ajouté qu'AWS propose déjà des outils pour protéger les applications, mais que les entreprises les ignorent souvent.
Jake Moore, conseiller en cybersécurité chez ESET, a déclaré que cette panne illustrait les risques liés à la dépendance excessive envers quelques fournisseurs de services cloud. Nishanth Sastry, directeur de la recherche au département d'informatique de l'université de Surrey, a quant à lui affirmé que l'erreur commise par de nombreuses entreprises était de s'appuyer sur un seul fournisseur. Les entreprises ont besoin de redondance, pas d'une fidélité aveugle.
Ryan Griffin, responsable de la cybersécurité chez McGill and Partners, a déclaré que le coût des interruptions de service ne se limite pas à la frustration des utilisateurs. « Pour les grandes entreprises, des heures d'indisponibilité du cloud se traduisent par des millions de dollars de pertes de productivité et de revenus », a-t-il affirmé.
Malgré toutes ces perturbations, Wall Street est restée imperturbable. L'action Amazon a bondi de 1,6 %, s'apprêtant à clôturer la journée à 220 dollars, son plus haut niveau en trois mois.

