La CNAV Modernise sa Gestion des Données avec Teradata et Dataiku

La Caisse nationale d’assurance vieillesse (CNAV) a entrepris une transformation significative de sa gestion des données en abandonnant progressivement sa solution Hadoop au profit d’un socle technologique moderne basé sur Teradata et Dataiku. Cette initiative vise à regrouper et exploiter efficacement les 17 à 18 milliards d’enregistrements de l’organisme, qui gère les retraites de 36 millions d’assurés en France.

Un Projet d’Envergure

Créée en 2019, la direction de la gestion de la donnée de la CNAV a rapidement identifié la nécessité de regrouper ses informations pour améliorer son efficacité. Environ 65 employés sont impliqués dans cette direction, s’efforçant de garantir la qualité et l’intégrité des données à travers des équipes pilotes qui ont testé la nouvelle plateforme.

La Transition Technologique

Dès 2022, la CNAV a commencé à remettre en question sa dépendance à l’égard de la technologie Hadoop. En réponse, elle a sélectionné Teradata pour construire son data warehouse, tandis qu’en fin 2024, Dataiku a été choisi pour les applications de data science. Ce projet de modernisation a débuté en mars 2025, avec une mise en production initiale en juin pour environ 50 utilisateurs. Cette approche a permis de cibler deux départements ; la Direction de la Statistique, de la Prospective et de la Recherche (DSPR) et une mission dédiée à la qualité des données.

Cas d’Usage Concrets

La solution mise en place permet désormais de résoudre des problèmes concrets liés à la qualité des données. Par exemple, l’une des équipes a récemment réussi à identifier des anomalies dans les identités des assurés, facilitant ainsi le suivi des cas mal déclarés. D’autres applications visent à automatiser les opérations afin de prioriser le travail des contrôleurs de la CNAV, rendant le processus de gestion des dossiers plus efficient.

Un Horizon Éclairci

À terme, la CNAV prévoit de finaliser le déploiement complet de sa nouvelle solution de data science d’ici la fin de l’année. Cela inclut la connexion à des systèmes de stockage object pour les données non structurées. Ces évolutions sont essentielles pour tirer le meilleur parti des données internes et améliorer l’analyse des populations spécifiques, au lieu de se limiter à des échantillons.

La fermeture de l’ancienne infrastructure Hadoop est prévue pour fin 2025, marquant un tournant décisif dans la manière dont la CNAV gère et exploite ses données. Cette transition représente un exemple édifiant de la transformation numérique dans le secteur public, visant à moderniser les processus et optimiser les services offerts aux assurés.

Pour plus de détails sur ce projet stratégique, consultez l’article original publié sur Le Monde Informatique. CNAV mise sur un socle data formé par Teradata et Dataiku.