El giro de Coinbase hacia operaciones basadas en IA no está saliendo muy bien

- Coinbase informó que una falla en el sistema de refrigeración de AWS provocó una interrupción de varias horas en las operaciones, el acceso y las actualizaciones de saldo.
- La interrupción comenzó alrededor de las 23:50 UTC del 7 de mayo de 2026, después de que los sistemas internos de cotización comenzaran a fallar.
- Rob Witoff afirmó que tanto el hardware del motor de búsqueda como los sistemas de mensajería Kafka requerían recuperación manual.
Coinbase (Nasdaq: COIN) ha vuelto a demostrar a los operadores de criptomonedas cómo la lentitud del hardware en la nube puede perjudicar incluso a una plataforma de intercambio rápida. Todo parece indicar que la estrategia de la compañía de impulsar sus operaciones con inteligencia artificial podría haber sido su peor decisión hasta la fecha.
El viernes, la compañía informó que una falla en el sistema de refrigeración de Amazon Web Services (Nasdaq: AMZN) contribuyó a desencadenar una interrupción de varias horas que afectó las operaciones, el acceso a las bolsas y las actualizaciones de saldo en toda su plataforma.
El problema comenzó aproximadamente a las 23:50 UTC del 7 de mayo, cuando los sistemas de monitorización internos detectaron una oleada generalizada de fallos en las cotizaciones dentro de los sistemas de la empresa.
En ese momento, los ingenieros crearon variosdentSev1, y los clientes ya se vieron afectados en términos de servicios como el comercio al contado, Coinbase Prime, International, derivados, Retail, Advanced e Institutional exchanges.
Briantron, director ejecutivo de Coinbase, escribió en X que su empresa “sufrió una interrupción del servicio” y que tal incidente “nunca es aceptable”. Según él, la causa fue “el sobrecalentamiento de una sala en un centro de datos de AWS debido a la falla de varios sistemas de refrigeración”
Según Brian, la empresa garantiza que todos sus servicios estén diseñados para que no se desconecten en caso de que falle una zona de disponibilidad de AWS. La mayoría de los servicios están estructurados de esta manera, a excepción del exchange, que utiliza una infraestructura diferente debido a sus altas exigencias de latencia.
Coinbase atribuye las fallas en los servidores de AWS a que los sistemas de cotización comenzaron a fallar antes de la medianoche UTC
Según informó Cryptopolitan Cryptopolitan anteriormente, Coinbase planea despedir a 700 empleados, lo que representa aproximadamente el 14% de su plantilla total. El objetivo es reemplazar los procesos manuales con inteligencia artificial
Rob Witoff, responsable de la plataforma de Coinbase, explicó los detalles técnicos del problema. Según él, la interrupción duró bastante tiempo y afectó a las operaciones, el acceso a la plataforma de intercambio y las actualizaciones de saldo
La alerta inicial se produjo a las 23:50 UTC debido a fallos en las cotizaciones originados en los sistemas internos. Inmediatamente después se realizó un análisis de nivel Sev1. Según Rob, la causa de este problema fue un "evento térmico" en un pequeño porcentaje de racks en una de las instalaciones de AWS us-east-1.
Esta estructura para la infraestructura de intercambio resultó muy útil. Rob comentó que Coinbase mantiene su infraestructura de intercambio en una única zona de disponibilidad, ya que la industria valora la velocidad.
Además, la empresa cuenta con una copia de seguridad distribuida de esta infraestructura de intercambio para casos como este. Sin embargo, la falla de una parte de la infraestructura de intercambio en cuestión no se limitó a sus límites, lo que prolongó el proceso de solución del problema.
Dos componentes fallaron. Se produjo un fallo en el hardware situado debajo del motor correspondiente. Por lo tanto, antes que nada, fue necesario realizar operaciones de recuperación y conmutación por error.
Además, el clúster distribuido de Kafka, encargado de compartir información entre todos los sistemas de la organización, falló. Fue necesaria la recuperación de las particiones de Kafka en un nuevo servidor de hardware, lo que supuso una pérdida de datos de varios terabytes (TiB).
Los ingenieros reconstruyen Quorum y hacen que los mercados de Coinbase vuelvan a funcionar mediante los modos de cancelación y subasta
El motor de emparejamiento fue el responsable del mayor bloqueo en las operaciones. Este motor procesa las órdenes y mantiene los libros de órdenes. El sistema funciona en un clúster distribuido y requiere quórum antes de elegir un líder y realizar operaciones de forma segura.
Debido a las limitaciones en el centro de datos durante la interrupción, no todos los nodos se mantuvieron en buen estado, por lo que no se pudo alcanzar el quórum, impidiendo así las actividades comerciales en las bolsas minoristas, avanzadas e institucionales.
Rob mencionó que los equipos de soporte y de ingeniería de guardia tuvieron que ejecutar los procedimientos de recuperación ante desastres de la empresa, establecer el quórum y evaluar el estado del sistema en circunstancias de infraestructura difíciles.
Según él, el equipo tuvo que desarrollar, probar, implementar y validar una solución mientras gestionaba la interrupción del servicio. Kafka habría requerido una recuperación manual exhaustiva, ya que su arquitectura particionada gestiona miles de terabytes diariamente.
Se produjeron algunos problemas con el retraso en la transmisión de saldos debido a que Kafka estaba desfasado. Rob afirmó que estos problemas con los saldos desaparecieron una vez que la replicación se sincronizó. Según Coinbase, no se perdió ningún dato.
Cuando el motor de emparejamiento volvió a estar operativo, los mercados no se reactivaron simultáneamente. Primero, Coinbase cambió todos los productos al modo de cancelación, verificó el estado de los productos, cambió todos los mercados al modo de subasta y, finalmente, habilitó las operaciones en Coinbase Exchange.
Además, Rob hizo hincapié en que los clientes no deberían quedarse sin acceso a sus cuentas temporalmente. Coinbase aseguró a todos que la empresa proporcionaría una explicación detallada de estedent en las próximas semanas.
Sin embargo, Josh Ellithorpe desmintió los rumores tras leer la publicación de Rob en Twitter. Según explicó: «Nadie vibe algo que fallara. Un "no ingeniero" no implementó el código de producción y dejó inoperativo el motor de operaciones. No fue intencional. No se debió a que Coinbase no diseñara un sistema de respaldo. Los problemas ocurren a gran escala; no dejen que los que opinan desde la comodidad de su sillón les cuenten cuentos inverosímiles»
Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















