Nos réflexions sur la découvrabilité des données ouvertes

Publié le 7 juin 2021

D’avril à juin, c’est le printemps de data.gouv.fr : chaque semaine nous partageons nos réflexions, des annonces concrètes ou encore des événements et quelques surprises !

Après la qualité des données et les réutilisations de données, le mois de juin est dédié à la découvrabilité des données.

Qu'entend-on par découvrabilité des données ?

La découvrabilité des données correspond au degré auquel une donnée peut être trouvée lors d’une recherche ou la capacité des utilisatrices et utilisateur à découvrir une donnée dont ils ignoraient l'existence. Le terme recoupe des questions variées comme : Qui produit quoi ? Où sont les données ? Comment y accéder ? Que contiennent-elles ?

Au cours de 2020, dans le cadre de la réflexion sur la nouvelle feuille de route de data.gouv.fr, plusieurs ateliers sur ce sujet ont été organisés avec l’appui de la coopérative Datactivist en présence de membres de l’équipe Etalab et d’utilisatrices et utilisateurs réguliers de data.gouv.fr.

Il s’agit ici de partager les principales réflexions issues de ces ateliers et quelques-unes des pistes identifiées pour favoriser une meilleure découvrabilité des données sur la plateforme.

La semaine prochaine, nous présenterons concrètement des travaux récents sur la découvrabilité des données qui permettent de répondre à une partie des problématiques et opportunités présentées ici.

Identifier facilement les données pertinentes et de bonne qualité

Un des enjeux important relatif à la découvrabilité des données est la capacité des utilisatrices et utilisateurs à identifier facilement quels sont les jeux de données pertinents et de bonne qualité. Plusieurs leviers d’actions existent pour y répondre.

Améliorer le moteur de recherche

L’efficacité du moteur de recherche est un élément essentiel de la découvrabilité des données.

L’enquête usager menée au cours de 2020 a permis de mettre au jour que de nombreux utilisatrices et utilisateurs passent souvent par de multiples requêtes pour trouver le jeu de données qu’ils recherchent, ce qui peut générer des frustrations. Des expérimentations sur la pondération des résultats du moteur de recherche sont en cours pour refondre ce dernier. Le prototype, qui permet de jouer sur les différents critères à pondérer (titre, type d’organisation, description), pour l’instant complètement indépendant de data.gouv.fr est visible et testable ici (et le dépôt de code est ici).

En parallèle de cette refonte du moteur de recherche, la mise en place d’un indicateur de suivi « avez-vous trouvé ce que vous cherchiez ? » pour suivre l’amélioration des résultats de recherche est une piste intéressante pour améliorer la découvrabilité.

Editorialiser davantage la plateforme

Les travaux d’éditorialisation de la plateforme permettent également d'améliorer la découvrabilité des données. La mise en avant de jeux de données sur la page d’accueil, l’existence du service public de la donnée pour les bases de référence, les pages listant les données clés par sujet, l’existence de badge de certification des producteurs ou encore la rédaction d’article dédié pour mettre en avant des jeux de données, sont autant d’exemples visant à faciliter l’identification des jeux de données pertinents.

Ces efforts doivent être poursuivis et complétés par d’autres mesures. Parmi les pistes envisageables, on peut citer la mise en place d’un label données de qualité ou davantage mettre en avant les jeux de données préférés par la communauté.

Mieux accompagner les producteurs dans la documentation des données

Une bonne documentation des données est essentielle pour permettre aux utilisatrices et utilisateurs de s’y retrouver. Nous avions d’ailleurs déjà mis l’accent sur ce point lors du mois de la qualité des données.

Le travail de documentation n’est pas assez valorisé et les agents ne sont pas assez sensibilisés à l’importance de la documentation. Les guides d’Etalab doivent être enrichis, notamment d’exemples et de modèles de documentation. Dans ce sens, la proposition de champs de description dans l'espace administrateur avec des questions types comme la finalité première de création du jeu, sa composition, son processus de collecte ou ses modalités de maintenance par exemple, est une piste intéressante pour mieux guider les producteurs.

Il est également envisageable de mettre en place des mécanismes de contrôle et de contrainte des métadonnées. Par exemple, le champ description d’un jeu de données pourrait forcer le producteur à remplir un nombre minimum de caractères.

Prendre soin du catalogue de données

La découvrabilité passe aussi par l’entretien minutieux du très large catalogue de données de data.gouv.fr.

Faciliter la navigation entre les producteurs de données

Il est parfois difficile d’identifier le bon producteur de données sur data.gouv.fr. Plusieurs participants ont fait part de l’impression d’un « mille-feuille » dans leurs requêtes avec un mélange de données des collectivités, de ministères et d’entreprises. Cette diversité fait la richesse de data.gouv.fr, mais la navigation doit être facilitée pour ne pas perdre les utilisatrices et utilisateurs.

Pour améliorer la recherche, la distinction par type d’organisations et l’amélioration de la définition des périmètres géographiques dans les métadonnées paraissent essentielles.

Investir d'avantage dans le moissonnage

Les ateliers organisés sur la découvrabilité ont permis d’identifier que des difficultés persistent dans le moissonnage des données.

Les efforts sur l’accompagnement des producteurs sur ce sujet doivent être poursuivi notamment pour améliorer la qualité des métadonnées moissonnées, mieux gérer la mise à jour et l’archivage des données, éviter de moissonner des jeux de données redécoupés localement quand un fichier national existe ou encore pour encourager les producteurs moissonnés à éditorialiser leurs pages data.gouv.fr.

L’expérience utilisateur sur les données moissonnées, avec un label spécifique ou un code couleur par exemple, pourrait également être davantage différenciée pour clarifier la navigation.

Comment data.gouv.fr avance concrètement sur le sujet ?

Tout d’abord, nous souhaitons remercier chaleureusement tous les participants pour leurs nombreuses contributions ! L’ensemble des pistes d’action ont été discutées et priorisées pour établir la nouvelle feuille de route de data.gouv.fr.

La semaine prochaine nous présenterons quelques-uns de nos travaux sur la découvrabilité des données et notamment comment nous prévoyons d’accompagner les utilisatrices et utilisateurs dans leur recherche de données.