Une erreur DNS en Virginie s’est transformée en crise numérique mondiale, exposant la fragilité de notre monde dépendant du cloud
21 octobre 2025
Aux premières heures du lundi matin, alors que la plupart des Américains dormaient, un problème technique apparemment mineur dans un centre de données de Virginie du Nord a déclenché l’une des perturbations Internet les plus généralisées de l’histoire récente. Ce qui a commencé comme un problème de résolution DNS s’est rapidement transformé en une crise de 15 heures qui a mis hors service des milliers de sites web, paralysé les services financiers et laissé des millions de personnes incapables d’accéder à tout, de leurs sonnettes Ring à leurs fiches de paie.
Le coupable ? Un point de défaillance unique chez le fournisseur d’infrastructure cloud le plus dominant au monde : Amazon Web Services.
table des matières
ToggleLa cascade commence
À 00h11, heure du Pacifique, le 20 octobre 2025, AWS a signalé ce qu’il a appelé un “problème opérationnel” affectant 14 services différents dans sa région US-EAST-1 — le plus grand et le plus ancien cluster de centres de données d’Amazon en Virginie du Nord. À 03h11, heure de l’Est, le problème s’était métastasé en une crise à part entière affectant 113 services AWS et se répercutant à travers le monde.
La cause profonde était trompeusement simple mais catastrophiquement impactante : des problèmes de résolution DNS pour les points de terminaison du service DynamoDB. En termes simples, l’annuaire téléphonique d’Internet a cessé de fonctionner. Les applications ne pouvaient plus trouver les adresses de serveur correctes, les rendant incapables de se connecter aux bases de données stockant les informations utilisateur critiques et les données opérationnelles.
DynamoDB, l’un des services de base de données fondamentaux d’AWS, est la colonne vertébrale numérique d’innombrables entreprises. Quand il s’est éteint, les effets d’entraînement ont été immédiats et dévastateurs.
Un effet domino numérique
La panne n’a fait aucune discrimination. Elle a frappé avec une impitoyabilité démocratique à travers les industries et les continents.
Les plateformes de jeux Roblox et Fortnite sont tombées en panne, laissant des millions de joueurs face à des messages d’erreur. Les réseaux sociaux Snapchat et Reddit sont devenus inaccessibles. Les géants financiers, dont Coinbase, Robinhood et Venmo, ont connu des échecs de transaction pendant les heures de pointe du marché. Même les propres services d’Amazon — y compris son site principal, Prime Video, les assistants vocaux Alexa et les sonnettes vidéo Ring — ont bégayé et sont tombés en panne.
La perturbation s’est étendue bien au-delà des applications grand public. Les grandes organisations médiatiques, dont Disney et le New York Times, ont vu leurs opérations numériques entravées. Les compagnies aériennes ont signalé des retards système. La banque britannique Lloyds a connu des échecs de paiements et de virements. Les services gouvernementaux, y compris le système fiscal britannique HMRC, sont tombés hors ligne. Les livreurs utilisant DoorDash et Amazon Flex ont perdu des heures de travail générateur de revenus.
La liste des services affectés ressemblait à un annuaire de la vie numérique moderne : Zoom, Duolingo, Lyft, Signal, WhatsApp, Canva, Wordle, Perplexity, ChatGPT, United Airlines, et des centaines d’autres. Même les services essentiels comme les systèmes de paie alimentés par Xero et Square ont fait face à des perturbations, menaçant de retarder les salaires des travailleurs du monde entier.
DownDetector, qui suit les pannes Internet, a reçu plus de 11 millions de signalements de problèmes de connectivité dans le monde — un témoignage stupéfiant de la portée de la panne.
Le talon d’Achille caché
Ce qui a rendu cette panne particulièrement insidieuse était son exploitation d’une faiblesse fondamentale dans l’architecture cloud : le plan de contrôle centralisé.
Bien que les clients AWS soient souvent conseillés de distribuer leurs charges de travail sur plusieurs zones de disponibilité ou régions pour la résilience, de nombreux services AWS critiques eux-mêmes opèrent depuis US-EAST-1. Les services mondiaux comme IAMGestion des identités et des accès dans un système d’information. Azure AD gère les accès selon le rôle. Microsoft (Identity and Access Management) et DynamoDB Global Tables dépendent de points de terminaison en Virginie du Nord. Même les applications hébergées dans des centres de données européens ou asiatiques se sont retrouvées paralysées quand elles ne pouvaient pas communiquer avec ces systèmes de contrôle centralisés.
“Bien que la région impactée soit dans la région AWS US East, de nombreux services mondiaux dépendent de l’infrastructure ou des fonctionnalités du plan de contrôle situées dans US-EAST-1”, a expliqué Sid Nag, président et directeur de recherche pour Tekonyx. “Cela signifie que même si la région européenne n’était pas affectée en termes de ses propres zones de disponibilité, les dépendances pouvaient encore causer un impact en cascade.”
Cette réalité architecturale a transformé ce qui aurait dû être un problème régional en une crise mondiale. Des services à Londres, Paris et Tokyo ont échoué à cause d’un problème DNS en Virginie.
De mal en pis
Les ingénieurs AWS ont identifié le problème de résolution DNS à 00h26, heure du Pacifique, et ont réussi à atténuer le problème initial de DynamoDB à 02h24. La victoire semblait à portée de main.
Mais ensuite, la situation s’est encore détériorée.
Après avoir résolu le problème DNS de DynamoDB, AWS a découvert qu’un sous-ensemble de sous-systèmes internes continuait à subir une déficience. Le service EC2 — l’offre de machine virtuelle fondamentale d’AWS sur laquelle les entreprises comptent pour mettre automatiquement à l’échelle leur capacité de calcul — a commencé à échouer. Son sous-système interne responsable du lancement de nouvelles instances avait des dépendances sur DynamoDB, et ces dépendances sont maintenant devenues des goulots d’étranglement.
Pour éviter l’effondrement complet du système, AWS a pris la décision controversée de limiter les lancements d’instances EC2, ralentissant délibérément l’un de ses services les plus critiques. Cette décision, bien que nécessaire pour la stabilisation, a prolongé la période de récupération et empêché de nombreuses entreprises de créer les ressources de calcul supplémentaires dont elles avaient désespérément besoin.
Les problèmes ont continué à se propager en cascade. Les vérifications de santé du Network Load Balancer sont devenues déficientes, déclenchant des problèmes de connectivité réseau sur plusieurs services, notamment Lambda, CloudWatch et — ironiquement — DynamoDB lui-même.
Ce qui a suivi a été une bataille épuisante de 12 heures pour restaurer la fonctionnalité complète, service par service, limitation par limitation. Les ingénieurs AWS ont travaillé sur des chemins de récupération parallèles, levant progressivement les restrictions et restaurant la capacité. À 15h01, heure du Pacifique — près de 15 heures après le rapport initial — tous les services AWS sont finalement revenus à des opérations normales.
Le coût stupéfiant des temps d’arrêt
Alors qu’AWS est resté discret sur les chiffres exacts, les experts de l’industrie et les analystes ont dressé un tableau sobre de la dévastation financière.
Mehdi Daoudi, PDG de la société de surveillance de performance Internet Catchpoint, a estimé que l’impact financier “atteindrait facilement les centaines de milliards” en tenant compte de la perte de productivité de millions de travailleurs, des opérations commerciales arrêtées, des vols retardés et des processus de fabrication interrompus.
La panne AWS S3 de 2017, qui n’a duré que quatre heures, a coûté aux entreprises du S&P 500 environ 150 millions de dollars selon la société de risque cyber Cyence. La perturbation de lundi a duré près de quatre fois plus longtemps et a affecté beaucoup plus de services, suggérant que les pertes pourraient éclipser ce chiffre.
Pour mettre les choses en perspective, une analyse distincte de l’incident CrowdStrike de 2024 — qui partageait certains parallèles avec cette panne — a estimé 5,4 milliards de dollars de pertes directes pour les seules entreprises Fortune 500.
Les coûts cachés allaient au-delà de la perte de revenus immédiate. Les entreprises de commerce électronique ont fait face à des commandes échouées et des rétrofacturations. Les entreprises de services financiers ont géré des transactions perturbées qui pourraient déclencher des ruptures de contrat. Les industries réglementées ont fait face à des violations potentielles de conformité alors que les pistes d’audit étaient compromises. Les entreprises dépendant d’AWS ont vu leur réputation endommagée sans que ce soit de leur faute.
Brandon Hennis, un chauffeur DoorDash, a capturé le coût humain de manière succincte : “L’essence n’est pas gratuite, le temps n’est pas gratuit.” Pour les travailleurs de l’économie de plateforme et les petites entreprises, la panne signifiait des heures de revenus perdus sans compensation à l’horizon.
Le casse-tête de l’indemnisation
Pour ajouter l’insulte à l’injure, les entreprises affectées ont découvert qu’elles avaient remarquablement peu de recours pour récupérer leurs pertes.
Les clients AWS opèrent sous des accords de niveau de service standardisés qui offrent une compensation minimale pour les pannes. Ces SLA promettent généralement 99,99% de disponibilité et fournissent des crédits de service — pas des remboursements en espèces — lorsque ce seuil n’est pas atteint. Les crédits sont généralement nominaux et ne couvrent qu’une fraction des pertes réelles.
“Les crédits de service sont souvent nominaux et ne couvrent pas les pertes comme le préjudice de réputation ou la perte de revenus”, a expliqué Ryan Gracey, un avocat spécialisé en technologie chez Gordons. “En fin de compte, les clients se retrouveront avec un recours limité.”
Pour une entreprise qui a perdu des millions de revenus, recevoir un crédit de service de 10% ou 25% sur sa facture AWS mensuelle équivaut à une erreur d’arrondi. Les SLA renoncent explicitement à la responsabilité pour les dommages consécutifs, l’interruption d’activité ou les profits perdus.
Cette réalité contractuelle laisse les entreprises supporter pratiquement tout le risque des défaillances des fournisseurs de cloud, malgré avoir peu de contrôle sur l’infrastructure sous-jacente.
Un risque systémique révélé
La panne AWS d’octobre 2025 a exposé une vérité inconfortable sur l’infrastructure numérique moderne : nous avons créé un château de cartes construit sur les épaules d’une poignée de géants.
Au milieu de 2025, AWS commandait environ 30% du marché mondial de l’infrastructure cloud. Une enquête de 2024 a révélé que 76% des répondants mondiaux exécutaient des applications sur AWS, et 48% des développeurs utilisaient ses services. L’entreprise alimente plus de 90% des entreprises Fortune 100.
Microsoft Azure et Google Cloud complètent le triumvirat qui contrôle la grande majorité du cloud computing. Cette concentration signifie que lorsqu’un fournisseur échoue, les effets en cascade touchent des milliards de vies.
“Encore une fois, les entreprises et services mondiaux de commerce électronique ont été rappelés à quel point l’écosystème en ligne est vraiment fragile, lorsque tant d’entreprises dépendent d’une poignée de fournisseurs de services clés”, a déclaré David Jinks, responsable de la recherche consommateurs chez ParcelHero.
La concentration monopolistique comporte un risque systémique comparable aux banques “trop grandes pour faire faillite” qui ont déclenché la crise financière de 2008. Mais contrairement aux banques, les fournisseurs de cloud font face à une surveillance réglementaire minimale malgré leur rôle critique dans le commerce et la communication mondiaux.
Tim Wright, un partenaire technologique du cabinet d’avocats Fladgate, a averti que la panne “souligne le risque systémique croissant lié à une forte dépendance nationale et sectorielle envers un petit nombre de fournisseurs de cloud hyperscale.”
Pour les secteurs réglementés comme la finance et la santé, cette dépendance crée des risques existentiels. Les perturbations bancaires peuvent déclencher des ruptures contractuelles et un examen réglementaire. Les défaillances du système de santé peuvent littéralement coûter des vies. Les pannes de services gouvernementaux sapent la confiance et la fonctionnalité publiques.
L’illusion de la redondance
La sagesse conventionnelle en cloud computing veut que la distribution des charges de travail sur plusieurs zones de disponibilité ou régions fournisse une résilience adéquate. La panne de lundi a brisé cette illusion.
De nombreuses entreprises ont découvert — trop tard — que leurs déploiements multi-zones soigneusement architecturés ne signifiaient rien lorsque le plan de contrôle centralisé dans US-EAST-1 est tombé en panne. Leurs applications en Irlande, à Singapour et à São Paulo ont toutes échoué simultanément parce qu’elles ne pouvaient pas communiquer avec la gestion des identités, les tables de base de données globales ou d’autres services qui n’opèrent que depuis la Virginie du Nord.
“Même si votre propre site web ou application n’est pas hébergé sur AWS, il y a de bonnes chances que quelque chose que vous utilisez, de votre CRM à votre processeur de paiement, le soit”, a noté George Foley, conseiller technique chez ESET Ireland. “Les pannes comme celle-ci soulignent l’importance d’avoir des plans de résilience en place, y compris des sauvegardes et des routes alternatives pour les données et services essentiels.”
La véritable résilience, soutiennent maintenant les experts, nécessite que les entreprises adoptent des stratégies multi-cloud — répartissant les charges de travail critiques simultanément sur AWS, Azure et Google Cloud. Mais cette approche apporte ses propres complications : complexité accrue, coûts plus élevés, défis de synchronisation des données et besoin d’expertise spécialisée pour gérer plusieurs plateformes.
Pour de nombreuses entreprises, en particulier les petites et moyennes entreprises, la solution multi-cloud reste économiquement et techniquement hors de portée. Elles n’ont guère d’autre choix que d’accepter le risque de concentration et d’espérer le meilleur.
Le facteur erreur humaine
Notamment absent du récit de la panne était toute suggestion d’intention malveillante. Ce n’était pas une cyberattaque, un sabotage d’État-nation ou une opération de rançongiciel — des scénarios qui déclenchent souvent les peurs les plus viscérales lorsque l’infrastructure critique échoue.
Au lieu de cela, la panne découlait de la plus banale des causes : l’erreur humaine lors d’une mise à jour logicielle.
“Chaque fois que nous voyons ces titres, la première pensée qui traverse l’esprit de tout le monde, qui envoie un frisson dans la colonne vertébrale, est : ‘Est-ce l’une de ces cyberattaques ? Est-ce une chose dirigée par l’armée ou le renseignement ?'”, a déclaré Bryson Bort, PDG de la société de cybersécurité Scythe. “Et dans ce cas, ce n’est pas le cas. En fait, la plupart du temps, ce n’est pas le cas. C’est généralement une erreur humaine.”
Cette réalité offre peu de réconfort. Si quoi que ce soit, elle souligne la précarité de notre infrastructure numérique. Les systèmes complexes, même lorsqu’ils sont exploités par les équipes techniques les plus sophistiquées du monde, restent vulnérables aux erreurs simples qui peuvent déclencher des défaillances catastrophiques.
La fragilité est intégrée dans l’architecture. Les systèmes cloud modernes impliquent d’innombrables services interconnectés, dépendances et automatisation. Lorsqu’un composant échoue, en particulier dans le plan de contrôle, les systèmes automatisés conçus pour maintenir la fiabilité peuvent en fait accélérer la cascade de défaillances.
Le règlement de comptes réglementaire à venir
Au lendemain de la panne, les appels à une réglementation accrue des fournisseurs de cloud se sont intensifiés.
Le régime britannique des Critical Third Parties (CTP), promulgué en vertu du Financial Services and Markets Act 2024, représente un modèle. Il soumet les principaux fournisseurs de services technologiques à une surveillance réglementaire lorsqu’ils soutiennent les services financiers, leur demandant de démontrer leur résilience opérationnelle et de faire face à des audits potentiels après des pannes importantes.
Des cadres similaires sont discutés dans l’Union européenne et aux États-Unis, bien que les progrès aient été lents. Les fournisseurs de cloud ont fait du lobbying avec succès contre une réglementation stricte, arguant que les forces du marché et la pression concurrentielle fournissent des incitations suffisantes pour maintenir la fiabilité.
La panne de lundi pourrait finalement faire pencher le calcul politique. Lorsque les services gouvernementaux essentiels, les systèmes bancaires et l’infrastructure critique dépendent tous d’une poignée d’entreprises privées — et pourtant ces entreprises font face à une responsabilité minimale en cas de défaillance — l’argument pour une intervention réglementaire se renforce.
Les mesures réglementaires potentielles en discussion incluent :
- Signalement obligatoire d’incidents avec analyse détaillée des causes profondes
- Normes de résilience minimales pour les services critiques
- Exigences de compatibilité multi-cloud pour réduire le verrouillage
- Plafonds de responsabilité permettant aux clients de récupérer des dommages plus substantiels
- Tests de stress réguliers et audits indépendants
- Coordination de la réponse d’urgence avec les agences gouvernementales
La question de savoir si de telles réglementations amélioreraient les résultats ou imposeraient simplement des coûts supplémentaires reste vivement débattue. Les fournisseurs de cloud avertissent qu’une réglementation lourde pourrait étouffer l’innovation et augmenter les prix. Les défenseurs des consommateurs répliquent que sans mécanismes de responsabilisation, les fournisseurs manquent d’incitations suffisantes pour investir dans la résilience.
Leçons du précipice
Pour les entreprises qui ont vécu le chaos de lundi, plusieurs leçons douloureuses se sont cristallisées :
Les accords de niveau de service ne sont pas une assurance. Les crédits offerts par AWS et d’autres fournisseurs de cloud n’ont aucune relation significative avec le coût réel des temps d’arrêt. Les entreprises ont besoin d’une assurance interruption d’activité dédiée qui couvre les défaillances des fournisseurs de cloud.
La distribution géographique ne suffit pas. Répartir les charges de travail sur plusieurs zones ou régions au sein d’un seul fournisseur de cloud offre une protection incomplète. Lorsque les services du plan de contrôle échouent, tout échoue.
Les objectifs de temps de récupération doivent être réalistes. De nombreuses entreprises ont découvert que leurs plans de reprise après sinistre supposaient qu’elles pouvaient simplement créer de nouvelles instances ou restaurer à partir de sauvegardes — des capacités devenues indisponibles lorsque AWS lui-même était en panne.
Les coûts de veille active sont justifiés. Maintenir une infrastructure dupliquée chez un fournisseur de cloud différent, bien que coûteux, peut être la seule véritable défense contre les défaillances au niveau du fournisseur.
L’observabilité est critique. Les entreprises disposant d’une surveillance robuste ont rapidement identifié que leurs applications échouaient en raison de problèmes AWS, et non de leur propre code. Celles sans une telle visibilité ont gaspillé des heures précieuses à déboguer les mauvais problèmes.
La voie à suivre
Alors que les services AWS sont progressivement revenus à la normale lundi soir, le monde numérique a poussé un soupir de soulagement collectif. Snapchat s’est chargé. Fortnite s’est reconnecté. Alexa a répondu aux commandes à nouveau.
Mais la vulnérabilité sous-jacente demeure. La fondation d’Internet repose sur des piliers remarquablement fragiles, et les entreprises qui contrôlent ces piliers font face à des conséquences minimales lorsqu’ils s’effondrent.
Chang Lou, professeur adjoint à l’Université de Virginie spécialisé en cloud computing, a formulé le défi de manière saisissante : “Ils louent leurs ressources de cloud computing à d’autres pour qu’ils puissent servir leurs propres clients. Lorsque le bâtiment du propriétaire a des problèmes structurels, tout le monde à l’intérieur en souffre.”
La panne AWS d’octobre 2025 sera mémorisée non seulement pour son impact immédiat, mais comme un moment de clarification — un test de résistance qui a révélé des faiblesses systémiques dans l’architecture de la vie numérique moderne.
La question maintenant est de savoir si les leçons apprises conduiront à un changement significatif, ou si nous continuerons à construire des structures toujours plus hautes sur la même fondation instable, en espérant que le prochain effondrement ne soit pas pire.
L’histoire suggère que cette dernière option est plus probable. Jusqu’à ce que les incitations économiques changent — jusqu’à ce que les fournisseurs de cloud fassent face à une véritable responsabilité pour les défaillances, jusqu’à ce que les clients aient des alternatives viables, jusqu’à ce que les régulateurs imposent des normes significatives — la dynamique fondamentale reste inchangée.
Nous allons corriger les problèmes immédiats, effectuer nos autopsies, mettre en œuvre de nouvelles protections, et avancer. Les ingénieurs d’AWS travaillent sans aucun doute déjà à empêcher que ce mode de défaillance spécifique ne se reproduise.
Mais quelque part dans la vaste toile interconnectée de dépendances, d’automatisation et de prise de décision humaine qui constitue l’infrastructure cloud, la prochaine cascade potentielle attend. Ce pourrait être un service différent, un fournisseur différent ou un type d’erreur différent.
Quand elle viendra, des millions de personnes découvriront à nouveau que leur capacité à travailler, communiquer, faire des achats et gérer leurs finances bancaires dépend de systèmes plus fragiles qu’elles ne l’avaient jamais imaginé.
Le cloud, il s’avère, n’est pas aussi stable que le sol sous nos pieds.
Au moment de la publication, AWS signale que tous les services sont revenus à des opérations normales. L’entreprise a promis un résumé détaillé post-événement analysant les causes profondes et les mesures préventives — un document qui sera scruté par des millions de clients désormais vivement conscients de leur dépendance envers une infrastructure qu’ils ne peuvent pas contrôler.