Nos travaux sur la qualité des données : présentation d'un nouvel outil pour accompagner la production de données ouvertes de qualité

Publié le 13 avril 2021

D'avril à juin c'est le printemps de data.gouv.fr : chaque semaine nous partageons nos réflexions, des annonces concrètes ou encore des événements et quelques surprises !

La semaine dernière nous nous efforcions de définir ce qu’est la qualité des données, son importance, et les pistes pour la favoriser.

Il s’agit maintenant de vous présenter les travaux récents sur ce sujet qui permettent de répondre à une partie des problématiques que nous avions évoquées mais aussi de vous dévoiler le nouvel outil imaginé pour accompagner les producteurs de données dans la saisie, la validation et la publication de données de qualité !

Le cycle de vie de la donnée ouverte de qualité

Avant de vous présenter ce nouvel outil, il est bon de rappeler les principales étapes du cycle de vie de la donnée de qualité.

Étape 1 : Fédérer une communauté ayant pour objectif de produire en open data des données aisément consolidables

La semaine dernière, nous insistions sur plusieurs éléments qui permettent d’évaluer le niveau de qualité comme le format du fichier, sa structure et son contenu. Il est important de noter ici que la prise en compte de ces critères ne suffit pas à aboutir à des données de qualité.

Prenons un exemple :
Admettons que vous êtes le producteur de données d’une collectivité et que vous décidez de publier en open data l’ensemble des espaces verts de votre territoire. Même en publiant des données avec un format adéquat, une structure claire et des données de qualité, cela risque de n’être pas suffisant.

En effet, lors de la constitution de vos données, vous allez probablement faire des choix qui ne sont pas partagés par tous les mêmes types de producteurs de données.Les données publiées par les différents producteurs risquent alors d’être difficiles à être agrégées et réutilisées.

Il est essentiel que des acteurs ayant pour ambition de produire le même type de données se réunissent afin de définir ensemble un standard commun. Ce standard est appelé un schéma de données.

En 2020, de nouveaux schémas ont émergé ainsi. Parmi ceux-ci :

Les schémas de données connaissent un succès grandissant et une petite dizaine sont déjà prévus pour les prochains mois grâce à la mobilisation de nombreux acteurs. L’équipe transport.data.gouv.fr a notamment été très motrice sur les sujets des données de mobilité concernés par la Loi d’orientation des mobilités.

Etalab est à la disposition de ces communautés pour les accompagner dans la conception de ces schémas. Un guide est à disposition des producteurs désirant se lancer dans la conception d’un nouveau schéma de données. Il est également possible de créer une issue Github sur le dépôt de code de schema.data.gouv.fr ou de nous écrire à l’adresse schema@data.gouv.fr.

Étape 2 : Référencer le schéma

Une fois le schéma établi il s’agit de le référencer. Depuis mi-2019, Etalab opère schema.data.gouv.fr la plateforme nationale de référencement qui permet un accès aux schémas et facilite l’intégration avec des systèmes informatiques.

Étape 3 : Saisir les données

Un consensus ayant été atteint sur le schéma des données, il est temps de saisir les données en elle-même. Pour produire des données de qualité les producteurs peuvent notamment s’appuyer sur le guide qualité d’Etalab.

Étape 4 : Valider les données par rapport au schéma

Depuis 2019, l’outil Validata, développé par la société Jailbreak à l’initiative d'Opendatafrance permet à un producteur de valider la conformité de ses données par rapport à un schéma particulier.

Fin 2020, Etalab a travaillé avec Jailbreak pour améliorer l’outil Validata en lui permettant notamment d’être plus souple sur la validation des données. Par exemple, il est désormais possible d’ajouter des champs propres au producteur sur un jeu de données. Bien que nous ne pouvons pas considérer ce type de données comme parfaitement conforme, nous avons ajouté la notion de fichier « partiellement valide ». Ces fichiers « partiellement valides » n’empêchent pas la consolidation des données vis-à-vis d’un schéma, car ces champs ne sont pas obligatoires.

Étape 5 : Publier les données en open data

Les données sont maintenant validées, il ne reste plus qu’à les publier !

Etalab est présent sur l’ensemble des étapes du cycle de vie de la donnée de qualité pour accompagner les producteurs de données. Pour autant, et malgré l’augmentation du nombre de schémas référencés et disponibles, force est de constater que trop peu de jeux de données conformes à ces schémas sont publiés en open data sur la masse globale des données disponibles. Pour favoriser l’émergence de nouvelles données obéissant à un schéma, nous avons travaillé ces derniers mois sur un nouvel outil en beta test : publier.etalab.studio

Accompagner les producteurs de bout en bout : un nouvel outil en vue !

Cet outil a pour ambition d’accompagner un producteur de données sur la saisie, la validation et la publication de ses données.
Nous ne parlons pas dans cet outil de notion de « schéma », notion technique à destination des experts, mais de « types de données ».

Accompagner la saisie des données

publier.etalab.studio permet aux producteurs de données de sélectionner le type de jeu de données qu’ils souhaitent publier parmi la liste existante.

Une fois son type de donnée sélectionné, l’utilisateur a le choix entre plusieurs modes de production :

  • Téléverser (uploader) son fichier si les données sont déjà consolidées au bon format ;
  • Saisir ses données dans un formulaire ;
  • Saisir ses données sur un tableur en ligne.

Accompagner la validation des données :

Vient ensuite l’étape de la validation des données : lors du téléversement d’un fichier, la validation de celui-ci est automatiquement testée via l’outil Validata. Le rapport d’erreurs éventuelles est ainsi retranscrit directement sur l’application.

Si l’utilisateur a fait le choix de remplir ou de modifier ses données sur le tableur en ligne, les données en erreurs sont automatiquement surlignées pour indiquer à l’utilisateur que celles-ci ne sont pas conformes. Ce mode est encore en bêta test et va s’améliorer dans les prochaines semaines en proposant de nouvelles fonctionnalités.

Accompagner la publication des données

Enfin, une fois les données conforme au schéma correspondant, il est temps de les publier. Un formulaire de publication simplifié permet de publier les données directement sur data.gouv.fr via une authentification tierce.

Ce nouveau moyen de publication, encore en expérimentation sur les prochains mois, permet de faciliter la saisie des données de qualité, et facilite le lien entre les ressources de même type sur la plateforme data.gouv.fr. Il est ainsi très facile de visualiser toutes les ressources obéissant à un schéma particulier, mais produites par différentes organisations.


Exemple ici avec le schéma Infrastructures de recharge de véhicules électriques (IRVE).

En savoir plus sur l’outil

> Une présentation plus complète de l’outil est prévue le 19 avril, n’hésitez pas à vous joindre à nous : voir l'évènement.

Pour toute question, n’hésitez pas à nous écrire à schema@data.gouv.fr