Comment Decathlon assure son développement continu dans Kubernetes (canary + GitOps)

Contexte

Lors du rebranding de 2024, Decathlon a refondu ses frontaux e‑commerce et basculé vers une architecture multi‑tenant sur Kubernetes (une instance par pays). Cette évolution a augmenté le risque qu’un incident affecte l’ensemble de la production : un problème majeur équivaut, selon les équipes, à la fermeture d’une quarantaine de magasins et à des effets en cascade sur click & collect et entrepôts. Tester en préproduction ne suffit pas toujours : certains impacts n’apparaissent qu’en production à charge réelle.

La solution retenue

Pour limiter ces risques, Decathlon a intégré Flagger (opérateur open source sous licence Apache 2.0) à sa chaîne GitOps basée sur Flux CD afin d’exécuter des déploiements canary. Principe : déployer la nouvelle version à côté de la version stable et dériver progressivement une fraction du trafic vers le canary pour mesurer son comportement en conditions réelles. Flagger peut automatiser la montée en charge du canary, analyser les métriques et décider de promouvoir ou d’abandonner la version — tout en envoyant des notifications et en demandant des confirmations aux équipes.

Exemples opérationnels cités

Démarrer le canary avec 5 % du trafic, augmenter par paliers (ex. +5 % toutes les 5 minutes).
Sur une API à 3 000 req/s, atteindre 20 % du trafic sans incident est considéré comme satisfaisant.
Plusieurs stratégies possibles : duplication de trafic (shadowing), A/B testing ou déploiement progressif par paliers.

Points d’attention relevés par Decathlon

Qualité des métriques : des outils de monitoring (Datadog chez Decathlon) peuvent « polluer » Flagger si les métriques ne sont pas correctement filtrées, entraînant des rollbacks injustifiés. Decathlon a contribué une correction à la communauté open source.
Taille d’échantillon et intervalle de confiance : la fiabilité des décisions automatisées dépend de la base statistique. Sur des flows à fort trafic (catalogue) on peut se permettre des fenêtres courtes ; sur le tunnel de commande (moins de trafic) il faut des fenêtres d’observation plus longues.
Contrôle humain : Decathlon a volontairement bridés certains automatismes pour conserver un « bouton d’urgence » manuel — les métriques ne sont jamais exhaustives et certains effets peuvent apparaître tardivement.
Adoption par les développeurs : le succès technique doit être accompagné d’un travail d’acceptation et de co‑construction avec les équipes dev.

Bonnes pratiques recommandées

Choisir des métriques pertinentes : erreurs, latence (p95/p99) et métriques business (taux de conversion). Définir des seuils clairs d’abandon.
Définir des fenêtres statistiques adaptées selon le volume de trafic et toujours associer un intervalle de confiance aux mesures.
Commencer par shadowing / duplication pour valider sans impacter l’utilisateur, puis passer au canary progressif.
Conserver des garde‑fous : abort conditions, runbooks, playbooks, et possibilité de rollback manuel.
Compléter par des feature flags pour contrôler l’exposure côté applicatif et réduire le blast radius.
Travailler l’observabilité : dashboards, alerting, traces distribuées et intégrer des tests de charge réalistes avant promotion.
Impliquer les développeurs dès la conception de la stratégie de déploiement (coconstruction), former et documenter les procédures.

Outils et écosystème cités / utiles

Flagger (opérateur canary, Apache 2.0) et Flux CD (GitOps) — intégration native pour déploiements automatiques.
Monitoring / observabilité : Datadog (utilisé par Decathlon), Prometheus, Grafana, traces (Jaeger, Zipkin).
Service mesh / routage de trafic : Istio, Linkerd, Traefik, NGINX.
Feature flagging : LaunchDarkly, Unleash (exemples).
CI/CD : GitHub Actions, GitLab CI, etc.

Risques et mitigations rapides

Décisions automatisées sur métriques bruitées → filtrage des métriques, calibrage des seuils, vérification manuelle.
Sous‑échantillonnage sur endpoints critiques → allonger les fenêtres d’observation, multiplier les métriques éligibles.
Résistance des équipes dev → ateliers de co‑conception, démonstrations, documentation et retours d’expérience.

Conclusion

Le retour d’expérience de Decathlon illustre la valeur des déploiements progressifs dans Kubernetes pour réduire le risque produit lors de changements majeurs (rebranding, refonte). L’intégration de Flagger dans une chaîne GitOps (Flux CD) offre une automatisation utile, mais exige du soin : qualité des métriques, contrôle humain et adoption par les développeurs restent des facteurs clés de réussite.

Source

Article : « Comment Decathlon assure son développement continu dans Kubernetes », Reynald Fléchaux, LeMondeInformatique.fr, publié le 10 février 2026.
Lien : https://www.lemondeinformatique.fr/actualites/lire-comment-decathtlon-assure-son-developpement-continu-dans-kubernetes-99298.html

Suggestions pour WordPress

Catégorie : Développement & Ops / Cloud / Kubernetes
Tags : Kubernetes, Flagger, Flux CD, GitOps, canary, déploiement progressif, observabilité, Datadog, Decathlon
Image mise en avant : photo du Cloud Native Days / illustration d’un canary deployment ou graphique de montée de trafic
Call to action en bas d’article : « Avez‑vous mis en place des canary deployments dans votre organisation ? Partagez vos retours en commentaires. »