Nos réflexions sur la qualité des données

Publié le 6 avril 2021

D'avril à juin c'est le printemps de data.gouv.fr : chaque semaine nous partageons nos réflexions, des annonces concrètes ou encore des événements et quelques surprises !

Nous amorçons ce printemps de data.gouv.fr sur la question de la qualité des données.

La qualité des données est un élément essentiel du succès de l'open data : l'ouverture des jeux de données n'entraîne pas directement leur réutilisation. Ce constat s’explique notamment par les difficultés que rencontrent les réutilisateurs lorsqu’ils souhaitent s’approprier les données ouvertes.

D'ailleurs, l’analyse de l’enquête auprès des usagers (905 répondants de juin à septembre 2020) pointe une véritable attente des utilisateurs de la plateforme sur la qualité des données. Les répondants remontent des problèmes de mise à jour avec des jeux de données souvent obsolètes, une documentation insuffisante ou inexacte quand elle existe, la multiplicité de jeux de données ou encore le manque d’échanges entre producteurs et réutilisateurs de données malgré le système de commentaires de data.gouv.fr. En somme, la qualité n’est pas suffisamment au rendez-vous.

Au cours de 2020, dans le cadre de la réflexion sur la nouvelle feuille de route de data.gouv.fr, plusieurs ateliers sur la qualité et l’interopérabilité des données ont été organisés en présence de membres de l’équipe Etalab et d’une dizaine d’usagers réguliers de data.gouv.fr.

Il s'agit ici de partager les principales réflexions de ces ateliers : qu'entend-on par qualité des données ? Comment peut-elle être améliorée et quelles sont les difficultés inhérentes au sujet pour data.gouv.fr ?

La semaine prochaine, nous présenterons concrètement les travaux récents sur la qualité des données qui permettent de répondre à une partie des problématiques et opportunités présentées ici.

Qu'est-ce qu'un jeu de données de qualité ?

Plusieurs éléments permettent d'évaluer le niveau de qualité d'un jeu de données, nous mentionnerons ici les plus importants d'entre eux.

Des éléments sur les données elles-mêmes et leur structure :

  • Le format de fichier : dans le monde de l'open data, certains formats de fichier sont plus présents que d'autres. C'est le cas notamment des formats CSV ou JSON. Ces formats permettent de facilement récupérer les données pour les réutiliser de la manière souhaitée. Ces formats sont à favoriser par rapport à d'autres formats propriétaires (Excel par exemple).
  • La structure du fichier : la façon dont est structuré un fichier est également importante. Le nom des propriétés du fichier doit être explicite, compréhensible rapidement et interprétable facilement par des machines (par exemple l'usage d'espaces, d'accents ou de majuscules dans le nom des propriétés est déconseillé).
  • Le contenu : faire attention aux données elles-mêmes est également essentiel. Le contenu d'une donnée particulière doit être le plus épuré possible, avec un type de donnée simple (un nombre, un pourcentage, une chaîne de caractère, une date...) et un sens "métier" le plus clair possible.

Des éléments attestant du potentiel de réutilisation et de croisement des données :

  • Le respect de standards, référentiels et schémas déjà établis ;
  • La présence de données et colonnes pivots pour lier les données à un référentiel (Le code SIRET ou SIREN par exemple).

Des éléments qui accompagnent les données :

  • une documentation claire et rigoureuse avec des métadonnées sur le format du fichier, les versions et les référentiels ;
  • La gestion des versions et des mises à jour des données ;
  • Des échanges entre producteurs et réutilisateurs du jeu de données avec si possible des mécanismes de contribution aux données ;

Si ces grands critères sont davantage de la responsabilité, des producteurs de données, data.gouv.fr peut faciliter leur respect.

Comment favoriser la publication de jeux de données de qualité ?

Mais alors comment favoriser la publication de jeux de données de qualité respectant ces conditions ? Quels leviers peuvent être mobilisés ?

Plusieurs pistes intéressantes ont émergé des échanges :

  • Un accompagnement plus important des producteurs avec des efforts de sensibilisation et de formation à l'usage de schémas de données, à la rédaction de documentation ou encore au suivi de l'actualité des jeux de données ;
  • Favoriser les échanges entre producteurs et réutilisateurs de données ;
  • Améliorer la prévisualisation des données sur data.gouv.fr ;

Améliorer l'accompagnement des producteurs de données

Les participants ont évoqué quelques pistes pour améliorer l’accompagnement des producteurs de données de data.gouv.fr :

  • Le développement et la mise à disposition de validateurs de données et schémas ;
  • La création de schémas des données plus réalistes, moins complexes et appréhendables par le plus grand nombre ;
  • La gamification de la publication des jeux de données avec des systèmes de gratification symbolique pour les producteurs de données de meilleure qualité (badges, etc.) ;
  • Une mise en avant des données de qualité dans une approche incrémentale avec plusieurs niveaux de qualité possibles et des exigences associées (“label rouge”, “A,B,C,D,E”, etc.) ;
  • Un accompagnement personnalisé sur un ou plusieurs jeux de données d’un même producteur ;
  • Un accompagnement collectif thématique sous forme de “hackathon” ;
  • Un accompagnement en ligne sous forme de tuto écrit (déjà présent avec le guide Etalab) voir sous forme de vidéo.

Les participants ont pointé une difficulté majeure lors de l’identification du producteur du jeu de données. En effet, il faut distinguer le producteur de la donnée, souvent issu d’une direction métier, du diffuseur qui publie le jeu de données, souvent un référent open data d’une organisation.

Favoriser les échanges entre producteurs et réutilisateurs de données

Le constat est partagé par tous : trop peu de producteurs répondent aux interrogations et demandes des réutilisateurs. Un nombre important d’exemples au sein de communautés numériques ont permis d’inspirer les participants des échanges : StackOverflow et son système d’échange gamifié, les forums Discourse et leurs badges, les “local guides” de Google Maps ou le système “d’issues” et de “pull requests” de Github. Sans rejeter la faute sur l’une ou l’autre catégorie d’usagers, plusieurs idées pour favoriser les interactions ont été évoquées :

  • Engager les producteurs à répondre sur des données de haute qualité (données de références et données conformes à un schéma par exemple) ;
  • Considérer un jeu de données qui génère beaucoup de questions sans réponses comme non fiable ;
  • Inciter les réutilisateurs à expliquer le contexte de leur demande ;
  • Améliorer le système de commentaires de data.gouv.fr en intégrant par exemple un statut au message, la validation de la réponse, un système de “j'aime” des commentaires, la possibilité pour d’autres de répondre ou un autre moyen de contact ;
  • Développer un système d’alertes envoyées aux producteurs pour répondre aux demandes en cours ;
  • Mettre en place des “badges” par profil de réutilisateurs ;
  • Multiplier les travaux collectifs entre producteurs et réutilisateurs pour améliorer la qualité des jeux de données comme des datasprints ou des microcontributions ;
  • Donner la possibilité de “taguer” une personne pour résoudre un problème.

Il faut noter ici que le lien entre producteurs et réutilisateurs n’est possible que dans la mesure où le jeu de données est publié par un producteur identifié et non moissonné.

La prévisualisation des jeux de données sur data.gouv.fr :

La prévisualisation des jeux de données est importante, car elle permet de visualiser les données sans avoir à les télécharger et permet également aux réutilisateurs de se faire une idée du contenu et de la qualité d'un jeu de données avant de l'exploiter.

Les participants ont soulevé plusieurs contraintes sur ce point. Premièrement, une grande partie des ressources et des jeux de données ne sont pas hébergés directement par la data.gouv.fr ce qui complexifie l'analyse de leur contenu.

Une autre contrainte importante réside dans la liberté laissée aux producteurs sur les formats des fichiers publiés, contrairement à d’autres plateformes d’ouverture de données. Il est en effet très complexe de proposer des prévisualisations de données sans cadrer strictement le format et la structure des fichiers qui peuvent être publiés.

Ceci étant, les participants ont proposé plusieurs actions à mettre en place pour développer cette fonction de prévisualisation :

  • Rendre obligatoire le formatage des jeux de données pour faciliter la prévisualisation ;
  • Développer un outil de prévisualisation des champs des jeux de données ;
  • Proposer un modèle de “datastore” qui coexisterait avec l’approche actuelle de catalogue.

Des nouvelles fonctionnalités à imaginer

Les participants ont également réfléchi aux fonctionnalités à imaginer sur l’ensemble de l’écosystème data.gouv.fr pour améliorer la qualité des données comme :

  • Ajouter des liens plus systématiques entre data.gouv.fr et wikidata pour compléter la documentation officielle des jeux de données ;
  • Permettre la jointure entre des jeux de données notamment nationaux et locaux ;
  • Revoir le système de recherche avec un mode avancé et des filtres de sélection.

Comment data.gouv.fr avance concrètement sur le sujet ?

Tout d'abord, nous souhaitons remercier chaleureusement tous les participants pour leurs nombreuses contributions ! L’ensemble des pistes d’action ont été discutées et priorisées pour établir la nouvelle feuille de route de data.gouv.fr.

La semaine prochaine nous présenterons nos travaux sur le cycle de vie de la donnée de qualité et notamment comment nous prévoyons d'accompagner les producteurs dans la saisie, la validation et la publication de leurs données.