Table des matières
Mardi dernier, le géant de l’infrastructure Internet Cloudflare a été au cœur d’une panne sans précédent, plongeant des millions d’internautes dans l’incertitude pendant six heures. Alors que la société craignait initialement une cyberattaque, la véritable cause s’est révélée être une simple erreur interne aux conséquences dévastatrices. Retour sur cet événement qui a secoué le web mondial.
Les 3 infos à ne pas manquer
La panne a débuté le mardi 18 novembre 2025 à 12h20, suite à une mise à jour sur un cluster de bases de données ClickHouse. Cette modification visait à renforcer la sécurité en définissant clairement les permissions d’accès des utilisateurs. Cependant, un effet secondaire inattendu a entraîné un chaos technique : les colonnes de données apparaissaient en double dans les métadonnées, ce qui a perturbé le fichier utilisé par le système Bot Management.
Le fichier, qui d’ordinaire contient environ soixante empreintes, a soudainement explosé pour atteindre plus de 200 entrées. Le logiciel qui traite ce fichier ayant une limite de sécurité fixée à 200 éléments, les serveurs de Cloudflare ont commencé à échouer, générant des erreurs 500 pour les utilisateurs du monde entier.
Le diagnostic de la panne a été rendu difficile par l’intermittence du problème. Le fichier incriminé était régénéré toutes les cinq minutes, et selon que la requête tombait sur un serveur mis à jour ou non, le fichier généré était soit correct, soit défectueux. Cette fluctuation a compliqué la tâche des équipes techniques, qui ont perdu un temps précieux à explorer la piste d’une cyberattaque.
Le PDG de Cloudflare, Matthew Prince, a exprimé publiquement ses regrets pour le temps perdu en suivant une fausse piste. Ce n’est qu’après plusieurs heures que les équipes ont identifié le fichier Bot Management comme étant la cause de la panne, permettant ainsi de commencer à rétablir progressivement les services.
Durant la panne, l’ensemble de l’écosystème Cloudflare a été affecté. Les sites utilisant le Content Delivery Network (CDN) ont affiché des erreurs 500, et certaines fonctionnalités comme Turnstile et Workers KV ont cessé de fonctionner, impactant de nombreuses applications en ligne. De plus, les salariés en télétravail utilisant Cloudflare Access pour s’authentifier auprès de leur entreprise ont été incapables de se connecter.
Pour les clients migrés vers la nouvelle version du proxy FL2, les erreurs 500 étaient encore plus fréquentes. Quant aux utilisateurs restés sur l’ancienne version, ils ont rencontré un problème de reconnaissance des bots, ce qui a conduit à rejeter de nombreux utilisateurs légitimes.
Face à cette panne majeure, Cloudflare a annoncé des mesures correctives pour éviter une récidive. Les fichiers de configuration internes seront désormais soumis à une validation stricte avant leur déploiement. En outre, des coupe-circuits globaux seront intégrés pour pouvoir désactiver rapidement des fonctionnalités défaillantes.
La gestion des rapports de débogage sera aussi revue, afin de limiter la consommation de ressources processeur lors de la génération automatique de ces rapports. Ces changements visent à renforcer la résilience du réseau Cloudflare et à minimiser l’impact de futurs incidents.
Fondée en 2009, Cloudflare est devenue un acteur incontournable de l’infrastructure Internet, offrant des services de sécurité, de performance et de fiabilité à des millions de sites web. Avec environ 20% des sites utilisant ses services, l’entreprise joue un rôle crucial dans le fonctionnement du web moderne. Cette panne, bien que rare, rappelle les difficultés inhérentes à la gestion d’un réseau de cette envergure et l’importance de la précision dans les mises à jour techniques.
Depuis sa création, Cloudflare a connu plusieurs incidents, mais l’entreprise a toujours su en tirer des leçons pour améliorer ses systèmes. L’incident de 2025 servira sans doute de catalyseur pour de nouvelles innovations en matière de gestion de la sécurité et de la performance sur Internet.