Nouvelles fonctionnalités relatives aux schémas de données sur data.gouv.fr

Published on November 4, 2020

En juin 2019, nous annoncions le lancement de schema.data.gouv.fr, le répertoire des schémas de données adossé à la plateforme ouverte des données publiques. Nous sommes heureux de vous présenter plusieurs nouvelles fonctionnalités relatives aux schémas, qui sont disponibles dès à présent sur…

Les schémas de données au service de la qualité des données

Les schémas de données permettent de décrire de manière précise et univoque les différents champs qui composent un jeu de données et les valeurs possibles. Ils permettent de valider qu’un jeu de données se conforme à un schéma, de générer de la documentation automatiquement, de créer des jeux de données d’exemple ou de proposer des formulaires de saisie standardisés.

Les schémas de données permettent ainsi une montée en qualité des données proposées en open data, surtout lorsque plusieurs producteurs de données sont amenés à produire un même jeu de données.

Qu’est-ce que schema.data.gouv.fr ?

Avec schema.data.gouv.fr, lancé en juin 2019, Etalab s’engage dans une démarche de référencement et de validation des schémas de données. Les schémas peuvent être référencés sur la plateforme dès lors que le schéma a une existence réglementaire et/ou que la réutilisation des données décrites par le schéma bénéficie à un grand nombre et/ou que de nombreux producteurs sont amenés à utiliser ce schéma.

Etalab n’est pas la seule à s’inscrire dans un tel mouvement. L’association OpenDataFrance a par exemple développé un ensemble de schémas dans le cadre du socle commun de données locales (SCDL). Les schémas du SCDL sont d’ailleurs intégrés dans schema.data.gouv.fr, aux côtés d’autres schémas dont certains correspondent à des obligations réglementaires (profils d’acheteurs, IRVE).

Les producteurs de données sont invités à valider la conformité d’un jeu de données avec le schéma existant.

Bien que schema.data.gouv.fr ne propose pas d’outils de validation, la plateforme Validata, développée par OpenDataFrance, intègre un outil de validation pour toutes les données du socle commun des données locales.

Pour en savoir plus sur la création de schémas de données vous pouvez vous référer au guide "créer des schémas de données".

Spécifier qu'une ressource respecte un schéma

Il est désormais possible de spécifier de manière déclarative, depuis l'interface d'administration de data.gouv.fr, qu'une ressource d'un jeu de données respecte un schéma de données.

Cette nouvelle fonctionnalité permet d'indiquer de manière non ambiguë qu'une ressource est censée respecter un schéma référencé sur schema.data.gouv.fr.

Auparavant, les producteurs de données renseignaient cette information dans la description de leur jeu de données ou par l'ajout d'un tag. L'ajout de ce champ permet de fournir une information plus claire et ouvre la possibilité à des intégrations avec d'autres systèmes par le biais de l'API de data.gouv.fr. Il est par exemple possible d'afficher tous les jeux de données avec des ressources répertoriant des infrastructures de recharge pour véhicules électriques.

Information, documentation et validation

En déclarant qu'une ressource respecte un schéma de données, le producteur indique clairement que les données respectent un référentiel établi.

La spécification de ce champ sur une ressource entraîne l'ajout d'un panneau d'information depuis la page de son jeu de données. Ce panneau permet au lecteur de découvrir la documentation relative au schéma et de vérifier que la ressource est bien conforme au schéma identifié.

Cette intégration de schema.data.gouv.fr à data.gouv.fr permet de lancer la validation du fichier sur Validata. En cas d’erreurs, un rapport de validation indique les erreurs trouvées : colonnes mal nommées, valeurs non conformes, etc. ;

Fonctionnalités à venir

Ces nouvelles fonctionnalités témoignent d'un rapprochement entre schema.data.gouv.fr et data.gouv.fr. Nous avons détaillé dans un article de blog en anglais les futures fonctionnalités envisagées : suggestion de schémas, consolidation de ressources respectant un même schéma, validation proactive de ressources, assistance aux producteurs de données etc.

Nous continuerons à travailler sur ces fonctionnalités dans les mois à venir en partenariat avec les producteurs et réutilisateurs de données ouvertes.


Pour en savoir plus sur les autres actualités recentes de la plateforme vous pouvez consulter notre article sur les nouveautés data.gouv.fr de l'été 2020.

Pour ne rien manquer de l'actualité de data.gouv.fr et de l'open data, inscrivez-vous à notre infolettre !