일리노이주 오로라에 있는 데이터 센터의 냉각 시스템 고장으로 인해 시카고 상품 거래소에서 선물과 옵션 거래가 중단되면서, 하나의 기술적 오류가 어떻게 글로벌 시장에 동시에 영향을 미칠 수 있는지가 드러났습니다.
정전은 CyrusOne이 운영하는 시설 내부에서 11월 27일에 시작되었는데, 냉각 장비가 고장나서 온도가 너무 높아져 주식, 외환, 채권, 상품과 관련된trac을 처리하는 서버가 중단되었습니다.
블룸버그에 따르면, 이 거래 중단은 몇 시간 동안 지속되었고 수조 달러에 달하는 거래가 중단되었습니다. 이는 쉴 새 없이 돌아가는 시장이 단일 건물 내부의 기계 과열로 인해 어떻게 오프라인 상태가 될 수 있는지를 보여주었습니다.
CME 플랫폼을 지원하는 시설은 KKR & Co.와 Global Infrastructure Partners가 2022년에 인수한 캠퍼스의 일부입니다. CyrusOne은 "냉각기 공장 고장"으로 여러 냉각 장치가 동시에 작동하여 안전을 위해 서버의 전원이 꺼졌다고 밝혔습니다.
가동 중단이 시작되자 CyrusOne은 직원들이 주 시스템을 다시 가동하는 동안 온도를 안정시키기 위해 임시 냉각 장비를 도입했습니다. 회사 측은 오로라 현장에서 기온이 섭씨 -0도(화씨 -0도) 아래로 떨어지면 공랭식 냉각기와 차가운 외기를 사용하며, 기상 기록에 따르면 그날 아침 해당 지역의 기온은 섭씨 -2도(화씨 -2도)였습니다.
CyrusOne은 자사 웹사이트에서 이러한 고장에 대비해 추가 냉각 장치를 시설에 갖추고 있다고 밝혔지만, 이 사고가dent동안 이러한 백업 장치가 어떤 역할을 했는지는 확실하지 않습니다.
냉각 고장으로 인해 암호화 연결 인프라 전체에서 정전이 발생합니다.
데이터 센터가 시장, 암호화폐 거래소, AI 개발자, 클라우드 공급업체에게 점점 더 중요해지고 있는 시기에 이루어졌습니다
이 건물들은 방대한 양의 정보를 저장하고 처리하는 칩이 탑재된 서버들을 줄지어 배치하고 있습니다. 이들의 컴퓨팅 파워는 시장 정보부터 블록체인 분석, 클라우드 지갑에 이르기까지 모든 것을 실행합니다.
이러한 서버는 너무 많은 전기를 사용하기 때문에 데이터 센터는 사무실 건물보다 평방 피트당 50배 더 많은 에너지를 소모하며, 그 전력의 대부분은 고장을 방지하기 위해 제거해야 하는 폐열로 전환됩니다.
운영자는 고객에게 더 많은 컴퓨팅을 임대할 수 있도록 각 방에 가능한 한 많은 서버를 배치하려고 하지만, 그로 인해 발열도 증가합니다.
이러한 현장의 냉방 비용이 총 비용의 상당 부분을 차지하게 되었습니다. 일부 프로젝트는 예산의 최대 15%를 냉방에만 사용합니다. 기존 현장은 냉기에 의존했습니다. 팬이 차가운 공기를 랙 전체로 밀어내고, 따뜻한 배기가스는 외부로 배출했습니다.
하지만 2022년경 AI 워크로드가 증가하면서 기업들은 수냉 방식으로 전환하기 시작했습니다. 차가운 액체는 칩 아래의 플레이트를 통과하거나, 전체 서버가 잠기는 탱크를 채웁니다. 일부 시스템은 사용하는데 , 이 액체는 뜨거운 칩에 닿으면 증발했다가 다시 액체로 응축됩니다.
액체는 공기보다 더 많은 열을 흡수할 수 있지만, 그만큼 위험도 커집니다. 누출은 값비싼 하드웨어를 손상시키고 시스템을 오프라인으로 만들 수 있습니다.
열이 수집되면 액체나 공기는 이를 냉각수 순환로로 이동시켜 냉각탑이나 산업용 냉각기로 보냅니다. 이러한 냉각탑은 냉각 과정에서 일부가 증발하기 때문에 많은 양의 물을 사용합니다. 많은 지역 사회, 특히 이미 물 부족을 겪고 있는 지역에서는 과도한 물 사용에 대한 우려를 제기해 왔습니다.
과열 사건으로 플랫폼이 폐쇄되고 거래 시스템이 마비되었습니다.
데이터 센터가 과열되면 칩이 손상되고 데이터가 손실되며 서비스 장애가 발생할 수 있습니다. 11월에는 클라우드플레어(Cloudflare)에 정전이 발생하여 X와 ChatGPT 같은 사이트가 마비되었습니다.
Amazon Web Services, Microsoft, CrowdStrike에서 각각 발생한 문제로 인터넷 일부가 한 번에 몇 시간씩 중단되었습니다. 이러한 사건들은 상시 가동 인프라를 운영하는 소수의 기업에 얼마나 많은 부분이 의존하는지를 보여줍니다.
운영자들은 예비 발전기, 추가 냉각 장치, 심지어는 전체 중복 캠퍼스까지 구축하여 이중화를 구축합니다. 그러나 CME 정전은 여러 부품이 동시에 고장 나면 이러한 계층들조차 고장날 수 있음을 보여줍니다.
냉각기 하나가 제대로 작동하지 않아 주요 시장 운영자가 오랫동안 오프라인 상태가 되어 전 세계trac에 영향을 미쳤으며, 현장에 추가 냉각 장비가 있더라도 중복성이 전혀 도움이 되었는지는 아직 알 수 없습니다.

