Que se dit-il dans les commentaires sur data.gouv.fr ?

Publié le 7 septembre 2021

Une analyse des discussions sur data.gouv.fr nous aide à améliorer la plateforme.

Une des spécificités de data.gouv.fr est la possibilité de discuter l’ensemble des éléments du site. Cette fonctionnalité est essentielle pour échanger entre producteurs et réutilisateurs de données. Les commentaires servent notamment à favoriser la montée en qualité des données grâce aux retours des utilisateurs et faciliter la réutilisation des données.

Mais que se dit-il dans ces commentaires ?

Des milliers de commentaires analysés

Les étudiants de la Licence Professionnelle Médiations de l’Information Numérique et des Données de l’Université Bordeaux Montaigne ont réalisé, avec l'encadrement de Samuel Goëta de la coopérative Datactivist, un travail impressionnant d'annotation des commentaires postés sur data.gouv.fr.

Les principaux objectifs étaient d'identifier les problèmes fréquents rencontrés par les usagers, de tester et d'appliquer une typologie afin de catégoriser les discussions.

7961 lignes correspondant à autant de commentaires ont été analysées et annotées selon une typologie distinguant des commentaires relatifs à l'accessibilité, l'exploitabilité, la fiabilité ou la compréhension des jeux de données.

Le jeu de données des annotations ainsi que le résultat de cette analyse sont disponibles sur data.gouv.fr.

Il s'agit ici de partager quelques-unes des principales conclusions de ces travaux et des perspectives qu'ils permettent d'imaginer.

Quels sont les principaux problèmes rencontrés par les utilisateurs ?

Comme l'atteste cette visualisation de nombreux commentaires peuvent être catégorisés comme relevant de problématiques d'accessibilité suivie de celles d'actualisation des données puis des questions de fiabilité et d'exploitabilité des données.

Quels sont les jeux de données les plus commentés ?

Sans surprise, les données les plus commentées sont celles relatives à l'épidémie de Covid-19.

Se battent ensuite pour le podium : la base Sirene sur les entreprises, la base Finess sur les établissements du domaine sanitaire et social et le Répertoire National aux associations.

Quelles prochaines étapes ?

Le système de commentaires de data.gouv.fr doit être amélioré pour favoriser les échanges entre producteurs et réutilisateurs. Il s’agit notamment de l’enrichir de fonctionnalités de votes, de mentions ou encore de modération. De la même manière, il faut davantage inciter les réutilisateurs à expliquer le contexte de leur demande.

Les travaux présentés ici constituent une ressource intéressante pour comprendre les usages de la plateforme, mais aussi pour penser l'amélioration des discussions sur data.gouv.fr et, plus largement, les interactions entre producteurs et réutilisateurs de données.

En effet, plusieurs pistes d'exploitation sont envisageables, parmi lesquelles :

  • proposer une catégorisation systématique grâce à de l'apprentissage automatique s'appuyant sur le jeu de données d'annotations ;
  • S'appuyer sur la typologie pour proposer des catégories aux utilisateurs lorsqu'ils commentent ;
  • Permettre au producteur de catégoriser lui-même les commentaires ;
  • S'appuyer sur ces catégorisations pour calculer un indicateur de qualité et de fiabilité des données.

N'hésitez pas à consulter la réutilisation et le jeu de données sur data.gouv.fr pour en savoir plus, à vous emparer de ces données pour réaliser et partager vos propres analyses de ces données !

Merci et bravo à Naxan Sewdut, Florian Bucher, Aurélien Chaix-Renou, Zoé Dorizy, Mathilde Fernandez, Emma Hermet, Sophie Metsemakers, Aurore Quaggiotto, Blandine Serre et à Olivier Le Deuff, maître de conférences à l'université Bordeaux-Montaigne et à l'IUT Bordeaux Montaigne pour ce travail précieux !

Pour ne rien manquer, de l'actualité de data.gouv.fr et de l'open data, inscrivez-vous à notre infolettre !

Jeux de données 1

Réutilisations 1