Als ein Ausfall der Kühlung in einem Rechenzentrum in Aurora, Illinois, den Handel mit Futures und Optionen an der Chicago Mercantile Exchange zum Erliegen brachte, zeigte diese Störung, wie ein einziger technischer Fehler die globalen Märkte gleichzeitig beeinträchtigen kann.
Der Ausfall begann am 27. November in einer von CyrusOne betriebenen Anlage, deren Kühlanlage versagte und die Temperaturen so hoch ansteigen ließ, dass Server, dietracim Zusammenhang mit Aktien, Devisen, Anleihen und Rohstoffen verarbeiteten, abgeschaltet werden mussten.
Der Stillstand dauerte Stunden und legte laut Bloomberg Transaktionen im Wert von Billionen Dollar lahm. Er verdeutlichte, wie selbst Märkte, die rund um die Uhr laufen, durch überhitzte Maschinen in einem einzigen Gebäude lahmgelegt werden können.
Die Anlage, die die CME-Plattform unterstützt, ist Teil eines Campus, den KKR & Co. und Global Infrastructure Partners im Jahr 2022 erworben haben. CyrusOne gab an, dass ein Ausfall der Kälteanlage mehrere Kühleinheiten gleichzeitig getroffen habe, was dazu führte, dass die Server aus Sicherheitsgründen heruntergefahren wurden.
Nach Beginn der Abschaltung setzte CyrusOne temporäre Kühlgeräte ein, um die Temperaturen zu stabilisieren, während die Mitarbeiter die Hauptsysteme wieder in Betrieb nahmen. Das Unternehmen gibt an, dass sein Standort in Aurora luftgekühlte Kältemaschinen und kalte Außenluft nutzt, wenn die Temperaturen unter -1 °C fallen. Wetterdaten zeigten an diesem Morgen -2 °C in der Region an.
CyrusOne gibt auf seiner Website an, dass die Anlage über zusätzliche Kühleinheiten verfügt, die zum Schutz vor solchen Ausfällen entwickelt wurden. Es ist jedoch nicht klar, ob diese Backups bei diesemdentetwas bewirkt haben.
Kühlungsausfälle führen zu Ausfällen in der gesamten kryptoverbundenen Infrastruktur.
Die Abschaltung der CME erfolgte zu einem Zeitpunkt, an dem Rechenzentren für Märkte, Kryptobörsen, KI-Entwickler und Cloud-Anbieter immer wichtiger werden.
In diesen Gebäuden stehen Reihen von Servern, vollgepackt mit Chips, die riesige Datenmengen speichern und verarbeiten. Ihre Rechenleistung treibt alles an, von Marktdaten über Blockchain-Analysen bis hin zu Cloud-Wallets.
Diese Server verbrauchen so viel Strom, dass ein Rechenzentrum pro Quadratmeter bis zu 50-mal mehr Energie verbrauchen kann als ein Bürogebäude, und der größte Teil dieser Energie wird in Abwärme umgewandelt, die abgeführt werden muss, um Ausfälle zu vermeiden.
Die Betreiber versuchen, so viele Server wie möglich in jedem Raum unterzubringen, um ihren Kunden mehr Rechenleistung vermieten zu können, was aber auch zu mehr Wärme führt.
Die Kühlung dieser Anlagen hat sich zu einem großen Kostenfaktor entwickelt. Manche Projekte wenden bis zu 15 % ihres Budgets allein für die Kühlung auf. Ältere Anlagen nutzten Kaltluft. Ventilatoren drückten gekühlte Luft über die Racks, und die warme Abluft wurde nach draußen geleitet.
Als die KI-Workloads um das Jahr 2022 deutlich anstiegen, begannen Unternehmen, auf Flüssigkeitskühlung umzusteigen. Kalte Flüssigkeit fließt durch Platten unter den Chips oder füllt Tanks, in die die Server vollständig eingetaucht werden. Einige Systeme verwenden spezielle Flüssigkeiten mit niedrigem Siedepunkt, die beim Kontakt mit den heißen Chips verdampfen und anschließend wieder kondensieren.
Flüssigkeiten können mehr Wärme aufnehmen als Luft, bergen aber auch Risiken. Ein Leck kann teure Hardware beschädigen und Systeme lahmlegen.
Sobald die Wärme aufgenommen ist, wird sie von der Flüssigkeit oder Luft in einen Kaltwasserkreislauf geleitet, der sie zu einem Kühlturm oder einer Industriekältemaschine transportiert. Diese Kühltürme verbrauchen ebenfalls große Mengen Wasser, da ein Teil während des Kühlprozesses verdunstet. Viele Gemeinden haben Bedenken hinsichtlich des hohen Wasserverbrauchs geäußert, insbesondere in Regionen, die bereits mit Wasserknappheit zu kämpfen haben.
Überhitzungsereignisse legen Plattformen lahm und führen zu Verzögerungen bei Handelssystemen.
Wenn ein Rechenzentrum überhitzt, können Chips beschädigt werden, Daten verloren gehen und Dienste ausfallen. Im November kam es zu Ausfällen bei Cloudflare, wodurch Dienste wie X und ChatGPT nicht mehr erreichbar waren.
Einzelne Probleme bei Amazon Web Services, Microsoft und CrowdStrike legten Teile des Internets stundenlang lahm. Diese Ereignisse verdeutlichen, wie sehr unser Alltag von wenigen Unternehmen abhängt, die eine permanent verfügbare Infrastruktur betreiben.
Betreiber setzen auf Redundanz mit Notstromaggregaten, zusätzlichen Kühlanlagen und sogar komplett redundanten Standorten. Doch der CME-Ausfall zeigt, dass selbst diese Sicherheitsvorkehrungen versagen können, wenn mehrere Komponenten gleichzeitig ausfallen.
Ein defekter Kältemaschinenkühler legte einen großen Marktbetreiber so lange lahm, dass dies Auswirkungen auftracweltweit hatte, und selbst mit zusätzlichen Kühlgeräten vor Ort ist noch immer unklar, ob die Redundanz überhaupt etwas gebracht hat.

