Le monde en ligne s’est pratiquement arrêté pour de nombreux Canadiens vendredi matin lorsque Amazon Web Services (AWS), l’infrastructure numérique qui alimente une grande partie d’internet, a connu une perturbation importante. Des applications bancaires aux réservations aériennes, les effets se sont rapidement propagés à travers les industries, nous rappelant à quel point notre économie numérique est devenue dépendante des fournisseurs centralisés de services infonuagiques.
J’ai d’abord remarqué que quelque chose clochait lorsque ma routine matinale de vérification de Delta Airlines pour un prochain voyage d’affaires ne m’a retourné que des messages d’erreur. En quelques minutes, mon téléphone s’est illuminé de messages de contacts du corridor technologique de Toronto signalant des problèmes similaires avec tout, de Slack à Instacart.
« Nous observons une latence sans précédent dans plusieurs régions AWS, » a expliqué Sameer Patel, directeur technique chez Stackline, une entreprise torontoise de développement logiciel. « Cela n’affecte pas seulement les applications grand public – ça perturbe les systèmes backend dont les gens ordinaires ne réalisent même pas qu’ils dépendent. »
La panne provenait principalement de problèmes dans la région US East-1 d’AWS, selon le tableau de bord de santé des services d’Amazon. Bien que cette grappe de centres de données soit physiquement située en Virginie du Nord, son impact s’étend mondialement en raison du nombre d’entreprises canadiennes qui acheminent leurs services via ces installations américaines.
La Banque de Montréal a temporairement perdu l’accès à ses fonctionnalités bancaires mobiles, tandis qu’Air Canada a signalé des retards dans ses systèmes de réservation et d’enregistrement. Même la Commission de transport de Toronto a connu des perturbations de son application de planification de trajets, laissant les navetteurs se démener pour trouver des alternatives pendant l’heure de pointe matinale.
Cette défaillance technique met en lumière la relation complexe du Canada avec l’infrastructure technologique étrangère. Malgré notre robuste secteur technologique national, environ 78% des entreprises canadiennes utilisant des services infonuagiques dépendent de fournisseurs américains, selon le rapport 2023 de l’Autorité canadienne pour les enregistrements Internet.
« Il existe une tension fondamentale entre la commodité d’utiliser des géants du nuage établis et la résilience qui vient de la distribution des systèmes entre plusieurs fournisseurs, » a déclaré Maya Rodriguez, spécialiste de l’infrastructure infonuagique à l’Institut de politique numérique du Canada. « La plupart des entreprises optimisent pour le coût et la commodité jusqu’à ce que quelque chose se brise. »
L’impact financier va au-delà des perturbations de service immédiates. Selon Gartner Research, les pannes majeures du nuage coûtent aux entreprises en moyenne 5 600 $ par minute en productivité et revenus perdus. Pour les entreprises fortement dépendantes des transactions numériques, ces coûts peuvent augmenter considérablement.
La porte-parole de WestJet, Jennifer Hutchinson, a confirmé que la compagnie aérienne a connu « des retards importants dans le traitement des réservations », mais a maintenu que les systèmes de sécurité opérationnelle n’ont pas été affectés car ils fonctionnent sur une infrastructure séparée.
L’explication technique derrière la panne implique que les systèmes de réseautage d’AWS ont connu ce que les ingénieurs appellent des « défaillances en cascade » – lorsqu’un composant tombe en panne, déclenchant des défaillances supplémentaires à travers des systèmes interdépendants. Pendant que les ingénieurs d’Amazon se précipitaient pour mettre en œuvre des correctifs, de nombreuses entreprises canadiennes ont activé leurs plans de secours – ou ont découvert qu’elles n’en avaient pas d’adéquats.
« C’est exactement pourquoi nous avons intégré de la redondance dans nos systèmes critiques l’année dernière, » a déclaré Raj Mehta, fondateur de PaymentLogic, une startup fintech basée à Toronto. « Nous avons pu passer à Microsoft Azure en quelques minutes, alors que beaucoup de nos concurrents sont restés en panne pendant des heures. »
En milieu d’après-midi, Amazon a rapporté avoir résolu les problèmes de réseau sous-jacents, bien que certains services continuaient de subir des effets persistants. L’entreprise a promis qu’une analyse post-incident complète serait bientôt disponible.
Pour les Canadiens moyens, la panne a servi de rappel inattendu de la fragilité numérique. Les livraisons d’épicerie ont été retardées, les services de diffusion en continu ont interminablement mis en mémoire tampon, et certains travailleurs à distance se sont retrouvés inopinément déconnectés de leurs outils de travail.
« Je ne pouvais accéder à aucun de mes fichiers de conception stockés dans notre référentiel cloud, » a déclaré Melissa Chen, designer graphique dans une agence de marketing à Vancouver. « Ma journée de travail entière a essentiellement disparu. »
Les experts de l’industrie mettent depuis longtemps en garde contre les risques de concentration liés à la dépendance de tant de services envers une poignée de fournisseurs infonuagiques. Selon le Centre canadien pour la cybersécurité, plus de 90% des charges de travail d’entreprise dans le nuage fonctionnent sur seulement trois fournisseurs: AWS, Microsoft Azure et Google Cloud.
« Ce que nous voyons n’est pas seulement une défaillance technique – c’est une défaillance du marché, » a soutenu Dr. Alisha Karim, professeure d’économie numérique à l’Université de Toronto. « Lorsque tant de services essentiels dépendent de si peu de fournisseurs, ces pannes deviennent une préoccupation de politique publique, pas seulement un inconvénient commercial. »
La vulnérabilité s’étend au-delà des intérêts commerciaux. Plusieurs systèmes municipaux d’alerte d’urgence à travers le Canada ont signalé des performances dégradées pendant la panne, bien que les services critiques 911 soient restés opérationnels car ils fonctionnent généralement sur une infrastructure séparée et renforcée.
Le Conseil de la radiodiffusion et des télécommunications canadiennes (CRTC) a déjà examiné les risques de concentration dans le nuage, mais a une autorité réglementaire limitée sur les fournisseurs d’infrastructure étrangers. Cette lacune réglementaire crée des défis pour assurer la résilience numérique dans l’ensemble de l’économie canadienne.
Alors que les services revenaient progressivement à la normale en soirée, l’incident offre des leçons précieuses tant pour les entreprises que pour les consommateurs. Pour les organisations, il souligne l’importance des stratégies multi-nuages et de la planification de reprise après sinistre. Pour les individus, il met en évidence la valeur du maintien d’alternatives hors ligne pour les tâches critiques.
Comme je terminais les entrevues pour cet article, j’ai reçu une notification ironique – mon service de sauvegarde dans le nuage avait finalement repris son fonctionnement, des heures après la panne initiale. Parfois, même nos systèmes de récupération ont besoin d’être récupérés.