Un nouvel outil au service de la qualité des données
Lancement de schema.data.gouv.fr

Etalab annonce aujourd'hui le lancement de schema.data.gouv.fr, le répertoire des schémas de données adossé à la plateforme ouverte des données publiques.

La qualité des données : un enjeu majeur pour l’open data

La montée en qualité des données est aujourd’hui l’un des objectifs principaux de l’open data, notamment pour faciliter la réutilisation des données. L’initiative schema.data.gouv.fr s’inscrit dans cet objectif.

Qu’est-ce qu’un schéma de données ? C’est un modèle qui permet de décrire de manière précise et univoque les différents champs qui composent un jeu de données et les valeurs possibles. Par exemple le schéma IRVE (infrastructure de recharge de véhicules électriques) spécifie chaque champ attendu (par exemple la puissance maximale délivrée à chaque point de recharge doit être un nombre réel exprimé en kW dans la colonne puiss_max).

À quoi servent les schémas ?

Les schémas permettent entre autres de valider qu’un jeu de données se conforme à un schéma, de générer de la documentation automatiquement, de générer des jeux de données d’exemple ou de proposer des formulaires de saisie standardisés.

Ces schémas permettent une montée en qualité des données proposées en open data, surtout lorsque plusieurs producteurs de données sont amenés à produire un même jeu de données. Dans le cas précédemment cité des infrastructures de recharge pour véhicules électriques, chaque aménageur a la responsabilité de déclarer l’infrastructure de son territoire. Par ailleurs, un nombre croissant de modèles de données sont définis de manière réglementaire, par des décrets ou des arrêtés. Un schéma est un moyen de faciliter l’adoption de ces modèles par les producteurs de données.

Qu’est-ce que schema.data.gouv.fr ?

Avec ce nouveau service schema.data.gouv.fr, Etalab s’engage dans une démarche de référencement et de validation des schémas de données. Les schémas peuvent être référencés sur la plateforme dès lors que le schéma a une existence réglementaire et/ou que la réutilisation des données décrites par le schéma bénéficie à un grand nombre et/ou que de nombreux producteurs sont amenés à utiliser ce schéma.

Etalab n’est pas la seule à s’inscrire dans un tel mouvement. L’association OpenDataFrance a par exemple développé un ensemble de schémas dans le cadre du socle commun de données locales (SCDL). Les schémas du SCDL sont d’ailleurs intégrés dans schema.data.gouv.fr, aux côtés d’autres schémas dont certains correspondent à des obligations réglementaires (profils d’acheteurs, IRVE).

Une complémentarité avec les outils de validation

Les producteurs de données sont invités à valider la conformité d’un jeu de données avec le schéma existant. schema.data.gouv.fr ne propose pas d’outils de validation.

Plusieurs solutions existent pour faire valider un jeu de données :

  • la plateforme Validata, développée par OpenDataFrance dans le cadre d’un financement PIA, intègre un outil de validation pour toutes les données du socle commun des données locales,
  • des solutions tierces, en anglais existent comme goodtables.io de l’Open Knowledge Fondation (Frictionless Data) ou encore CSV Lint proposé par l’Open Data Institute,
  • enfin, il est possible d’intégrer cette fonction de validation d’un jeu de données directement dans la procédure de publication d’un jeu de données. C’est par exemple le cas pour les données d’adresses locales qui font l’objet d’une validation directement sur le site adresse.data.gouv.fr.

À terme, il est possible d’envisager que la plateforme data.gouv.fr intègre elle aussi cette fonction de validation de certains jeux de données dès la phase de publication.

Vous pouvez retrouver sur schema.data.gouv.fr des schémas de données de qualité et conformes.

Commentaires sur cet article.