AWS bestätigte am Dienstagnachmittag, dass seine Cloud-Infrastruktur nach einem massiven globalen Ausfall, der Anwendungen, Dienste und Unternehmen über 10 Stunden lang lahmgelegt hatte, vollständig wiederhergestellt sei.
Die Störung, die bereits am selben Tag begonnen hatte, legte Nutzer von Tokio bis London lahm, sperrte sie von Snapchat, Reddit, Venmo und Zoom aus und legte den Betrieb von Tausenden von Unternehmen lahm.
Dies war der größte Internet-Fail seit dem Zusammenbruch von CrowdStrike vor etwa einem Jahr.
Laut Reuters erklärte die Cloud-Plattform um 15 Uhr pazifischer Zeit, alles sei wieder stabil, allerdings würden einige Dienste noch immer auf einen Nachrichtenrückstand hinarbeiten.
AWS, das Rückgrat des Internets für unzählige Unternehmen, räumte ein, dass die Störung durch einen defekten Netzwerkzustandsmonitor innerhalb seines internen EC2-Netzwerks verursacht wurde, einem wichtigen Bestandteil des Elastic Compute Cloud-Dienstes.
Das Cloud-System sollte eigentlich die Lastverteilung auf die Server regeln – stattdessen fiel es aus und unterbrach den Zugriff auf DynamoDB, die Cloud-Datenbank, die die Benutzerdaten vieler Anwendungen speichert. Die Ursache lag in Problemen mit der DNS-Auflösung, wodurch die Anwendungen die korrekten Adressen für den Zugriff auf die Datenbank nicht mehr finden konnten.
Der Ausfall traf die AWS-Region US-EAST-1, die im Übrigen die größte und älteste Cloud-Zone von AWS ist.
Dieses spezielle Rechenzentrum in Virginia wird nun für drei größere Internetausfälle innerhalb von nur fünf Jahren verantwortlich gemacht, darunter auch Ausfälle in den Jahren 2020 und 2021. Amazon hat nicht erklärt, warum dieser Cluster immer wieder ausfällt, obwohl er weiterhin die Standardregion für viele Nutzer ist.
AWS legt weltweit Apps, Banken und Fluggesellschaften lahm
Venmo, Zoom und Hunderte anderer Dienste funktionierten noch Stunden, nachdem AWS die Wiederherstellung des Normalbetriebs verkündet hatte. In Großbritannien waren große Institute wie die Lloyds Bank, die Bank of Scotland und Vodafone betroffen. Sogar die britische Steuerbehörde HMRC war nicht erreichbar. Laut Downdetector meldeten über vier Millionen Nutzer Störungen.
Gaming-Apps waren stark beeinträchtigt, Fortnite, Clash Royale und Clash of Clans waren nicht mehr erreichbar. Auch Krypto-Plattformen wie Coinbase und Robinhood waren offline. Das KI-Startup Perplexity bestätigte, seine Dienste während des Ausfalls nicht aufrechterhalten zu können. Amazons Prime Video, Alexa und die Hauptwebsite des Unternehmens waren ebenfalls nicht erreichbar.
Unterdessen postete Meredith Whittaker,dent von Signal, auf X, dass die sichere Chat-App ausgefallen sei. Elon Musk, dem X gehört, behauptete hingegen, seine Plattform sei weiterhin online.
AWS ist zwar Marktführer im globalen Cloud-Bereich vor Microsoft Azure und Google Cloud, hat aber nun einmal mehr gezeigt, wie zerbrechlich diese Dominanz sein kann. Fällt ein Monitor aus, spürt es die ganze Welt.
Ken Birman, Informatikprofessor an der Cornell University, mahnte Entwickler, nicht länger an der Sicherheit zu sparen. „Wenn Unternehmen Kosten senken und Abstriche bei der Sicherheit machen, um eine Anwendung schnellstmöglich zum Laufen zu bringen, und dabei vergessen, den letzten Schritt – den Schutz vor Ausfällen – auszulassen, sollten genau diese Unternehmen später genauer unter die Lupe genommen werden“, sagte er gegenüber Reuters. Er fügte hinzu, dass AWS bereits Tools zum Schutz von Anwendungen bereitstelle, diese aber oft ignoriert würden.
Jake Moore, Cybersicherheitsberater bei ESET, erklärte, der Ausfall verdeutliche das Problem, alles von wenigen Cloud-Anbietern abhängig zu machen. Nishanth Sastry, Forschungsleiter am Fachbereich Informatik der Universität Surrey, sagte, viele Unternehmen hätten den Fehler begangen, sich nur auf einen einzigen Anbieter zu verlassen. Unternehmen bräuchten Redundanz, nicht blinde Loyalität.
Ryan Griffin, Leiter des Bereichs Cybersicherheit bei McGill and Partners, erklärte, dass die Kosten von Ausfallzeiten nicht nur die Frustration der Nutzer beträfen. „Für große Unternehmen bedeuten stundenlange Cloud-Ausfälle Millionenverluste an Produktivität und Umsatz“, sagte er.
Trotz all der Turbulenzen zeigte sich die Wall Street unbeeindruckt. Die Amazon-Aktie legte um 1,6 % zu und schloss den Tag bei 220 US-Dollar – dem höchsten Stand seit drei Monaten.

