최신 뉴스
당신을 위해 엄선되었습니다
주간
최고 자리를 유지하세요

최고의 암호화폐 관련 정보를 이메일로 받아보세요.

코인베이스의 AI 기반 운영으로의 전환은 순조롭지 못한 것 같습니다

에 의해자이 하미드자이 하미드
3분 읽음
  • 코인베이스는 AWS 냉각 시스템 오류로 인해 거래, 접속 및 잔액 업데이트 서비스가 수 시간 동안 중단되었다고 밝혔습니다.
  • 이번 시스템 장애는 2026년 5월 7일 23시 50분(UTC)경 내부 시세 시스템에 오류가 발생하면서 시작되었습니다.
  • 롭 위토프는 엔진 하드웨어와 카프카 메시징 시스템 모두 수동 복구가 필요하다고 말했습니다.

코인베이스(나스닥: COIN)는 클라우드 하드웨어의 속도가 아무리 빠른 거래소라도 망칠 수 있다는 사실을 다시 한번 암호화폐 거래자들에게 보여주었습니다. 인공지능 기반 운영으로의 전환 전략은 지금까지 최악의 선택이었던 것으로 보입니다.

금요일, 아마존 웹 서비스(나스닥: AMZN) 내부의 냉각 장치 고장이 수 시간 동안 지속된 서비스 중단 사태를 촉발했으며, 이로 인해 플랫폼 전반에 걸쳐 거래, 거래소 접속 및 잔액 업데이트에 차질이 발생했다고 회사는 밝혔습니다.

문제는 5월 7일 UTC 기준 23시 50분경에 시작되었는데, 내부 모니터링 시스템에서 회사 시스템 전반에 걸쳐 견적 오류가 광범위하게 발생한 것이 감지되었습니다.

그 시점에서 엔지니어들은 여러 건의 Sev1 등급dent를 발생시켰고, 고객들은 이미 현물 거래, 코인베이스 프라임, 해외 거래, 파생 상품, 개인, 고급 및 기관 거래소와 같은 서비스 이용에 영향을 받고 있었습니다.

코인베이스의 CEO인 브라이언tron은 X에 기고한 글에서 자사 시스템에 "시스템 장애"가 발생했으며, 이러한 상황은 "절대 용납될 수 없다"고 밝혔습니다. 그는 장애의 원인이 "AWS 데이터 센터 내 여러 냉각기 고장으로 인해 해당 공간의 온도가 과열된 것"이라고 설명했습니다

브라이언에 따르면, 회사는 모든 서비스가 AWS 가용 영역 중 하나에 장애가 발생하더라도 중단되지 않도록 설계했다고 합니다. 대부분의 서비스는 이러한 방식으로 구성되어 있지만, 높은 지연 시간이 요구되는 거래소는 다른 인프라를 사용합니다.

코인베이스는 AWS 냉각 장치 고장을 원인으로 지목하며, UTC 자정 직전부터 시세 시스템 장애가 발생하고 있다고 밝혔습니다

에 따르면 보도 의 Cryptopolitan 코인베이스는 전체 직원의 약 14%에 해당하는 700명을 해고할 계획이며, 이는 수작업 프로세스를 인공지능(AI)으로 대체하기 위한 조치라고 합니다.

코인베이스 플랫폼 책임자인 롭 위토프는 이번 사태에 대한 기술적인 세부 사항을 밝혔습니다. 그에 따르면, 이번 시스템 장애는 장시간 지속되었으며 "거래, 거래소 접속 및 잔액 업데이트"에 영향을 미쳤습니다

최초 경고는 UTC 기준 23시 50분에 내부 시스템에서 발생한 견적 오류로 인해 발생했습니다. 즉시 심각도 1(Sev1) 분석이 이어졌습니다. Rob에 따르면, 이 문제의 원인은 AWS us-east-1 시설의 일부 랙에서 발생한 "열 문제"였습니다.

이러한 거래소 인프라 구조는 매우 유용했습니다. 롭은 업계에서 속도를 중시하기 때문에 코인베이스는 거래소 인프라를 단일 가용성 영역에 유지한다고 말했습니다.

또한, 해당 회사는 이러한 상황에 대비하여 거래 인프라의 분산 백업 복사본을 보유하고 있습니다. 그러나 현재 문제의 거래 인프라 일부에 발생한 장애가 회사 경계를 넘어 확산되면서 상황 복구 과정이 장기화되고 있습니다.

두 구성 요소에 오류가 발생했습니다. 매칭 엔진 아래쪽 하드웨어에 오작동이 있었던 것입니다. 따라서 무엇보다 먼저 복구 및 페일오버 작업을 수행해야 했습니다.

또한, 조직 내 모든 시스템에서 정보를 공유하는 역할을 하는 분산형 Kafka 클러스터가 다운되었습니다. Kafka 파티션을 새로운 하드웨어 브로커에 복구하는 데 TiB 단위의 정보가 소요되었습니다.

엔지니어들이 정족수를 재구축하고 취소 전용 모드와 경매 모드를 통해 코인베이스 마켓을 복구했습니다

매칭 엔진은 가장 큰 규모의 거래 시스템을 담당했습니다. 매칭 엔진은 주문을 처리하고 주문장을 관리합니다. 이 시스템은 분산 클러스터 환경에서 작동하며, 리더를 선택하고 안전하게 거래를 진행하기 위해서는 쿼럼이 필요합니다.

장애 발생 당시 데이터 센터의 제약으로 인해 모든 노드가 정상적으로 작동하지 않아 쿼럼을 확보할 수 없었으므로 소매, 고급 및 기관 거래소에서 거래 활동이 중단되었습니다.

롭은 비상 지원팀과 엔지니어링팀이 열악한 인프라 환경 속에서 회사의 재해 복구 절차를 실행하고, 정족수를 확보하고, 시스템 상태를 평가해야 한다고 언급했습니다.

따르면 , 팀은 광범위한 시스템 장애를 관리하면서 솔루션을 개발, 테스트, 배포 및 검증해야 했습니다. Kafka는 파티션 아키텍처를 통해 매일 수천 테라바이트의 데이터를 처리하기 때문에 광범위한 수동 복구가 필요했을 것입니다.

Kafka의 동기화가 지연되어 잔액 스트림이 일부 지연되는 문제가 있었습니다. Rob은 복제 동기화가 완료된 후 이러한 잔액 관련 문제가 해결되었다고 밝혔습니다. Coinbase에 따르면 데이터 손실은 없었습니다.

매칭 엔진이 다시 가동되었을 때, 시장이 동시에 재개되지는 않았습니다. 먼저 코인베이스는 모든 상품을 취소 전용 모드로 전환하고, 상품 상태를 확인한 후, 모든 시장을 경매 모드로 전환했고, 마지막으로 코인베이스 거래소에서 거래를 재개했습니다.

또한 롭은 고객 계정이 일시적으로 잠기는 일이 없어야 한다고 강조했습니다. 코인베이스는 몇 주 안에 이dent 에 대한 자세한 설명을 제공할 것이라고 모두에게 확신시켰습니다.

하지만 조쉬 엘리소프는 롭의 트위터 게시글을 읽고 루머를 반박했습니다. 그는 "누구도 실수로 코드를 잘못 작성해서 vibe 가 발생한 게 아닙니다. '엔지니어가 아닌 사람'이 운영 환경에 코드를 배포해서 거래 엔진을 다운시킨 것도 아닙니다. 고의적인 것도 아니었고, 코인베이스가 장애 복구 시스템을 설계하지 못해서 발생한 것도 아닙니다. 대규모 시스템에서는 이런 일이 발생할 수 있습니다. 탁상공론만 하는 사람들의 허황된 이야기에 속지 마세요."라고 말했습니다

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

이 기사를 공유하세요
더 많은 뉴스
심층 암호
화폐 속성 강좌