Quando un guasto al sistema di raffreddamento all'interno di un data center ad Aurora, nell'Illinois, ha bloccato le negoziazioni di future e opzioni al Chicago Mercantile Exchange, l'interruzione ha messo in luce come un singolo guasto tecnico possa colpire contemporaneamente i mercati globali.
L'interruzione è iniziata il 27 novembre all'interno di una struttura gestita da CyrusOne, i cui sistemi di raffreddamento si sono guastati e hanno fatto salire le temperature a tal punto da bloccare i server che gestivanotraclegati ad azioni, cambi, obbligazioni e materie prime.
Secondo Bloomberg, l'interruzione è durata ore e ha bloccato attività per migliaia di miliardi di dollari. Ha dimostrato come mercati che funzionano senza sosta possano comunque essere messi offline dal surriscaldamento dei macchinari all'interno di un singolo edificio.
La struttura che supporta la piattaforma CME fa parte di un campus che KKR & Co. e Global Infrastructure Partners hanno acquistato nel 2022. CyrusOne ha affermato che "un guasto all'impianto di refrigerazione" ha colpito contemporaneamente diverse unità di raffreddamento, causando lo spegnimento dei server per motivi di sicurezza.
Una volta iniziata la chiusura, CyrusOne ha installato apparecchiature di raffreddamento temporanee per stabilizzare le temperature mentre il suo personale lavorava per ripristinare la funzionalità dei sistemi principali. L'azienda afferma che il suo sito di Aurora utilizza refrigeratori raffreddati ad aria e aria esterna fredda quando le temperature scendono sotto i -1 °C, e i registri meteorologici hanno registrato -2 °C nella zona quella mattina.
CyrusOne afferma sul suo sito web che la struttura include unità di raffreddamento aggiuntive progettate per proteggere da questi guasti, ma non è chiaro se qualcuno di questi backup abbia avuto un ruolo durante questodent.
I guasti al sistema di raffreddamento provocano interruzioni nell'infrastruttura crittografata
La chiusura del CME è avvenuta in un momento in cui i data center stanno diventando sempre più importanti per i mercati, gli exchange di criptovalute, gli sviluppatori di intelligenza artificiale e i fornitori di servizi cloud.
Questi edifici ospitano file di server dotati di chip che archiviano ed elaborano enormi quantità di informazioni. La loro potenza di calcolo gestisce tutto, dai feed di mercato alle analisi blockchain, fino ai portafogli cloud.
Questi server consumano così tanta elettricità che un data center può bruciare 50 volte più energia per metro quadrato rispetto a un edificio per uffici, e la maggior parte di questa energia si trasforma in calore di scarto che deve essere rimosso per evitare guasti.
Gli operatori cercano di inserire quanti più server possibile in ogni sala, in modo da poter affittare più risorse di elaborazione ai clienti, ma questo crea anche più calore.
Il raffreddamento di questi siti ha rappresentato una parte importante del costo totale. Alcuni progetti spendono fino al 15% del loro budget solo per il raffreddamento. I siti più vecchi facevano affidamento sull'aria fredda. I ventilatori spingevano l'aria fredda attraverso i rack e l'aria calda di scarico veniva spinta all'esterno.
Ma quando i carichi di lavoro dell'intelligenza artificiale sono diventati più pesanti intorno al 2022, le aziende hanno iniziato a passare al raffreddamento a liquido. Il liquido freddo scorre attraverso piastre sotto i chip o riempie i serbatoi in cui sono immersi i server pieni. Alcuni sistemi utilizzano liquidi speciali con basso punto di ebollizione che evaporano a contatto con i chip caldi, per poi condensarsi nuovamente in fluido.
Il liquido può assorbire più calore dell'aria, ma aumenta i rischi. Una perdita può danneggiare hardware costosi e mettere offline i sistemi.
Una volta raccolto il calore, il liquido o l'aria lo convogliano in un circuito di acqua refrigerata che lo trasporta a una torre di raffreddamento o a un refrigeratore industriale. Queste torri utilizzano anche grandi quantità di acqua perché una parte evapora durante il processo di raffreddamento. Molte comunità hanno sollevato preoccupazioni circa l'elevato consumo di acqua, soprattutto nelle regioni che già soffrono di carenze.
Gli eventi di surriscaldamento chiudono le piattaforme e bloccano i sistemi di trading
Quando un data center si surriscalda, i chip possono danneggiarsi, i dati possono andare persi e i servizi possono interrompersi. Le interruzioni di servizio di novembre hanno colpito Cloudflare, mettendo fuori uso siti come X e ChatGPT.
Problemi separati presso Amazon Web Services, Microsoft e CrowdStrike hanno bloccato parti di Internet per ore. Questi eventi dimostrano quanto la vita quotidiana dipenda da poche aziende che gestiscono infrastrutture sempre attive.
Gli operatori implementano la ridondanza con generatori di riserva, unità di raffreddamento aggiuntive e persino campus duplicati. Ma l'interruzione del CME dimostra che anche questi livelli possono guastarsi quando più componenti si rompono contemporaneamente.
Un malfunzionamento di un refrigeratore ha costretto un importante operatore di mercato a rimanere offline per un periodo di tempo sufficientemente lungo da comprometteretracin tutto il mondo e, anche con apparecchiature di raffreddamento aggiuntive in loco, non si sa ancora se la ridondanza abbia avuto qualche effetto.

