La transition de Coinbase vers des opérations pilotées par l'IA ne se déroule pas aussi bien que prévu

- Coinbase a indiqué qu'une panne du système de refroidissement AWS avait provoqué une interruption de service de plusieurs heures affectant les transactions, l'accès et les mises à jour des soldes.
- La panne a commencé vers 23h50 UTC le 7 mai 2026, suite à des défaillances des systèmes de cotation internes.
- Rob Witoff a indiqué que le matériel moteur et les systèmes de messagerie Kafka nécessitaient tous deux une récupération manuelle.
Coinbase (Nasdaq : COIN) a une fois de plus démontré aux traders de cryptomonnaies à quel point la lenteur du matériel cloud peut nuire même à une plateforme d'échange rapide. Il semblerait que sa stratégie de virage vers une infrastructure basée sur l'IA soit sa pire erreur à ce jour.
Vendredi, la société a déclaré qu'une panne de refroidissement au sein d'Amazon Web Services (Nasdaq : AMZN) avait contribué à déclencher une panne de plusieurs heures qui a affecté les transactions, l'accès à la bourse et les mises à jour des soldes sur l'ensemble de sa plateforme.
Le problème a commencé vers 23h50 UTC le 7 mai, lorsque les systèmes de surveillance internes ont détecté une panne généralisée des systèmes de cotation de l'entreprise.
À ce stade, plusieursdentde niveau 1 ont été créés par les ingénieurs, et les clients ont déjà été impactés en termes de services tels que le trading au comptant, Coinbase Prime, International, les produits dérivés, Retail, Advanced et Institutional exchanges.
Briantron, PDG de Coinbase, a écrit sur X que son entreprise avait subi une panne et qu'un tel incident était inacceptable. Selon lui, la cause était la surchauffe d'une salle dans un centre de données AWS due à la défaillance de plusieurs refroidisseurs
D'après Brian, l'entreprise veille à ce que tous ses services soient conçus de manière à rester opérationnels même en cas de défaillance d'une zone de disponibilité AWS. La plupart des services sont structurés ainsi, à l'exception de la plateforme d'échange, qui utilise une infrastructure différente en raison de ses exigences élevées en matière de latence.
Coinbase attribue les dysfonctionnements de ses systèmes de cotation, survenus avant minuit UTC, à des pannes de ses serveurs de refroidissement AWS
avait rapporté Cryptopolitan Cryptopolitan prévoyait de licencier 700 employés, soit environ 14 % de ses effectifs totaux, afin de remplacer les processus manuels par l'intelligence artificielle.
Rob Witoff, responsable de la plateforme Coinbase, a fourni les détails techniques de l'incident. Selon lui, la panne a duré longtemps et a affecté « les transactions, l'accès à la plateforme et la mise à jour des soldes »
L'alerte initiale a été déclenchée à 23h50 UTC suite à des défaillances de cotations provenant des systèmes internes. Une analyse de niveau 1 a été immédiatement menée. Selon Rob, la cause de ce problème était un incident thermique survenu dans un faible pourcentage de racks d'un des centres de données AWS us-east-1.
Cette structure pour l'infrastructure de la plateforme d'échange s'est avérée très utile. Rob a précisé que Coinbase maintient son infrastructure d'échange dans une seule zone de disponibilité, car le secteur privilégie la rapidité.
De plus, l'entreprise dispose d'une copie de sauvegarde distribuée de cette infrastructure d'échange en cas de tels scénarios. Cependant, la défaillance d'une partie de cette infrastructure a dépassé le cadre de cette sauvegarde, prolongeant ainsi le processus de résolution du problème.
Deux composants ont connu une défaillance. Un dysfonctionnement s'est produit au niveau du matériel situé sous le moteur de correspondance. Par conséquent, il a fallu procéder en priorité à des opérations de récupération et de basculement.
Par ailleurs, le cluster Kafka distribué, chargé du partage d'informations entre tous les systèmes de l'organisation, est tombé en panne. La récupération des partitions Kafka sur un nouveau serveur matériel a nécessité la mise en place d'un nouveau serveur, ce qui représente plusieurs téraoctets de données.
Les ingénieurs rétablissent le quorum et remettent en service les marchés Coinbase via les modes d'annulation uniquement et d'enchères
Le moteur de correspondance était responsable du plus important blocage des transactions. Ce moteur traite les ordres et gère les carnets d'ordres. Le système fonctionne en cluster distribué et requiert un quorum avant de désigner un leader et de mener les transactions en toute sécurité.
Étant donné que tous les nœuds n'ont pas pu rester opérationnels en raison des contraintes du centre de données pendant la panne, le quorum n'a pas pu être atteint, empêchant ainsi les activités de négociation sur les marchés de détail, avancés et institutionnels.
Rob a mentionné que les équipes d'assistance et d'ingénierie d'astreinte devaient exécuter les procédures de reprise après sinistre de l'entreprise, établir le quorum et évaluer l'état du système dans des conditions d'infrastructure difficiles.
D'après lui, l'équipe a dû développer, tester, déployer et valider une solution tout en gérant la panne générale. La restauration de Kafka aurait nécessité une intervention manuelle importante, car son architecture partitionnée gère des milliers de téraoctets de données par jour.
Des problèmes de mise à jour des soldes ont été constatés en raison d'un retard de Kafka. Rob a indiqué que ces problèmes ont disparu une fois la réplication synchronisée. Selon Coinbase, aucune donnée n'a été perdue.
Lorsque le moteur de correspondance a été remis en service, les marchés n'ont pas été réactivés simultanément. Coinbase a d'abord basculé tous les produits en mode annulation uniquement, vérifié leur statut, basculé tous les marchés en mode enchères, puis enfin, activé les échanges sur Coinbase Exchange.
De plus, Rob a insisté sur le fait que les clients ne devraient pas être temporairement bloqués hors de leurs comptes. Coinbase a assuré à tous que l'entreprise fournirait une explication détaillée de cetdent dans les semaines à venir.
Cependant, Josh Ellithorpe a démenti les rumeurs après avoir lu le tweet de Rob. Il a déclaré : « Personne n’a codé à l’ vibe et provoqué une panne. Un non-ingénieur n’a pas déployé du code en production et mis hors service le moteur de trading. Ce n’était pas intentionnel. Ce n’est pas parce que Coinbase n’avait pas prévu de système de secours. Les incidents surviennent à grande échelle, ne croyez pas les experts autoproclamés qui vous racontent des histoires. »
Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.
LES
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)















