Un nouveau score de qualité des métadonnées sur les jeux de données

Publié le 10 août 2022

Pour vous permettre d'identifier plus facilement les jeux de données de qualité et vous accompagner dans la documentation de vos données, nous avons mis en place un score de qualité des métadonnées en version bêta. Nous avons hâte de vos retours !

Pourquoi un score de qualité des métadonnées ?

Nous avons identifié plusieurs problématiques à résoudre qui nous ont encouragées à mettre en place un score sur les jeux de données :

  • Les réutilisateurs peinent à identifier les jeux de données de qualité
  • Les producteurs ne pas sont suffisamment incités et accompagnés à améliorer la qualité de leurs données

En nous appuyant sur des consultations antérieures, vos retours ainsi que sur plusieurs sources d’inspiration, nous avons identifié plusieurs facteurs importants pour répondre à ces problématiques. Ceux-ci peuvent être distingués en deux grandes dimensions :

La qualité des données

Cette dimension peut être envisagée en deux parties :

  • La qualité du jeu de données, en particulier le niveau de remplissage des métadonnées. Ces informations sont précieuses pour encourager le producteur à améliorer la qualité de ses données.
  • La qualité des ressources ou fichiers c’est-à-dire l’analyse des données en elles-mêmes.

La popularité et l’activité des jeux de données

Cette dimension communautaire est importante pour identifier quels sont les bons jeux de données notamment, car un jeu de données de mauvaise qualité peut néanmoins être de référence sur un sujet spécifique.

Cette dimension repose sur plusieurs facteurs comme :

  • L’activité sur le jeu (vues, téléchargements, discussions, etc.)
  • Les contributions des utilisateurs (vote positif ou négatif, signalement, etc.)
  • La notion de fiabilité et légitimité du producteur des données

Quelle approche avons-nous retenue ?

Afin de confronter le score le plus rapidement à vos retours, les premières itérations ont principalement porté sur les métadonnées des jeux de données. Nous avons pour ambition d’enrichir ce score au fur et à mesure avec de nouveaux critères.

La dimension de popularité des jeux de données constituera, quant à elle, un chantier à part entière.

Voici les critères retenus pour cette première version :

Critère Description
Description des données La description des données est de qualité (la description du jeu de données est suffisamment longue).
Mise à jour La fréquence de mise à jour est renseignée et respectée.
Licence La licence est renseignée et ouverte.
Métadonnées des ressources Présence d’au moins une ressource avec un format ouvert déclaré.
Couverture spatiale La couverture et la granularité spatiale est renseignée.
Couverture temporelle La couverture temporelle des données est renseignée.

Si vous souhaitez en savoir plus sur comment améliorer la qualité de vos données, nous vous invitions à consulter notre guide sur la qualité des données.

Vous pensez que le score peut être amélioré ou que de nouveaux critères sont nécessaires ? Donnez-nous votre avis.

Merci d’avance !