La mise à disposition des données publiques sur la plateforme data.gouv.fr

La mise à disposition des données publiques sur la plateforme data.gouv.fr

Publié le 16/04/2012

Etalab, mission interministérielle placée sous l’autorité du Premier ministre, coordonne depuis sa création en février 2011 le recensement et la mise en ligne sur data.gouv.fr, des données publiques des administrations, des établissements publics, des autorités administratives indépendantes, et des collectivités territoriales qui le souhaitent.

Les données publiques mises à disposition par les administrations sont « des données brutes, structurées, produites dans le cadre des missions de service public de l’Etat et des collectivités ». Le contenu des jeux de données est décrit par des « métadonnées » c'est-à-dire, titre, dates de production, mots clés, description, zones géographiques… .

Ces métadonnées permettent d’identifier les données sur data.gouv.fr et facilitent leur réutilisation par tous. Certains jeux de données sont accompagnés d’annexes descriptives qui décrivent précisément les données, leur production, et/ou la structure des fichiers mis à disposition. Les données sont actuellement mises à disposition dans les formats tels qu’ils ont été produits dans le cadre de la mission de service public.

Chaque producteur de données « privilégie notamment les formats exploitables comme ceux tabulaires (CSV, ODS, XLS, etc.), textes (ODS, RTF, TXT, etc.), structurés (XML, etc.), géographiques (GML, KML, etc.), sémantiques (RDF, etc.), ou calendaires (iCalendar, etc.). » Annexe 5 de la circulaire du Premier Ministre, du 26 mai 2011.  La ministre du Budget, des Comptes publics, de la Réforme de l’Etat, Porte-parole du Gouvernement a rappelé le 31 aout 2011, lors du conseil des ministres présidé par le Président de la République, que les administrations devaient s’appliquer à généraliser l’usage des formats libres et ouverts, afin  d’encourager justement la réutilisation la plus large possible des données publiques

Dés le mois de juin 2011,  Etalab a effectué un audit des entrepôts de données existants et des données qu’elles contiennent, auprès de chaque ministère. 43 entrepôts ont à ce jour été identifiés.

Les objectifs de cet audit étaient les suivants :

-        Mettre à disposition sur data.gouv.fr les données publiques issues des entrepôts de données de l’Etat (statistiques de l’INSEE par exemple)

-        Automatiser l’extraction des métadonnées et des jeux de données et automatiser leur publication et mises à jour sur data.gouv.fr

-        L’enjeu est de faire de la qualification et de la publication des données publiques des étapes essentielles et naturelles du travail de production des données : toutes les données publiques doivent être par défaut et automatiquement sur data.gouv.fr !

Etalab a commencé par dresser un état des lieux des données et des systèmes d’information qui les contiennent, puis a fait une étude approfondie avec les experts métiers et les équipes techniques des producteurs de données pour automatiser la publication de ces données sur data.gouv.fr.

Les données ont ensuite été qualifiées (présence d’un titre, de mots clés, de description associée, …), en tenant compte des formalismes et les vocabulaires utilisés pour la qualification des données publiques des administrations, afin qu’ils soient compatibles avec ceux de data.gouv.fr : il était en effet essentiel d’harmoniser les vocabulaires de métadonnées pour faciliter l’identification et la compréhension des jeux de données par tous. L’utilisation du vocabulaire contrôlé de l’Union Européenne (Eurovoc) permet déjà de rapprocher des données de différentes administrations de l’Etat.

Etalab a poursuivi son audit en analysant tour à tour :

-        les capacités d’export des métadonnées dans le formalisme XML/RDF. Ce formalisme permet à chaque administration de diffuser automatiquement des données publiques sur la plateforme.

-        Les granularités des données et la granularité des fichiers qui seront mis à disposition sur data.gouv.fr, avec pour objectif de faciliter la réutilisation par tous.

-        La fréquence de mise à jour des données

-        les formats d’extraction des donnéesstructurées proposés par les systèmes d’information

La première étape a concerné l’INSEE et le MEDDTL (EIDER et Registre Parcellaire Graphique) puisqu’ ils disposaient d’entrepôts de données immédiatement connectables à data.gouv.fr car :

-        Ils ont pu qualifier leurs séries de données avec les thésaurus utilisés sur data.gouv.fr pour harmoniser mise en ligne des données. (Eurovoc : thésaurus de thématiques, traduit dans 25 langues et maintenu par l’Union Européenne, Codes Officiels Géographiques de l’INSEE (COG) http://rdf.insee.fr/geo/ qui permettent de décrire la zone géographique couverte par les jeux de données.

-        Ils ont pu extraire les métadonnées et des liens vers les jeux de données et les transmettre selon un formalisme XML/RDF pour publication sur data.gouv.fr

A noter que chaque donnée a été mise à disposition dans les formats proposés par le producteur (XLS pour l’INSEE, CSV et XLS pour les données du MEDDLT), dans la granularité telle qu’elle est produite et stockée par l’entité. (par zone géographique pour l’INSEE et par département pour le MEDDTL).
 Ces granularités de mise en ligne permettent à tout internaute d’obtenir facilement des données sur son environnement local en saisissant le nom de sa commune ou de sa région.

Pour permettre à un réutilisateur de télécharger facilement l’ensemble des données locales, l’INSEE a également mis à disposition sur data.gouv.fr des bases de données nationales, bien que très lourd et plus complexe à exploiter. http://www.data.gouv.fr/content/search?SearchText=base+de+donn%C3%A9es+recensement+france

Etalab et l’INSEE ont déployé un prototype de solution de diffusion automatisée de données, basées sur un formalisme XML/RDF. Cette démarche est en cours de déploiement avec d’autres producteurs. Ce travail de fond était nécessaire pour identifier les entrepôts éligibles, et sur lesquels des travaux complémentaires étaient nécessaires pour qu’à terme tous les entrepôts de données puissent verser automatiquement leurs données et métadonnées sur data.gouv.fr. Des évolutions sur les systèmes d’information des ministères ont d’ores et déjà été initiées. Elles permettront la rationalisation de la diffusion automatisée des données publiques des services, directions et offices des ministères.

Les travaux sur l’urbanisation des systèmes d’informations et l’harmonisation de la production des données sont des chantiers importants qu’Etalab mène avec le concours de la DISIC.

Tout nouveau système d’information devrait obligatoirement pouvoir exporter l’ensemble de ses données, préalablement qualifiées, dans un format ouvert interopérable, pour en permettre la publication sur data.gouv.fr et la réutilisation par le plus grand nombre.

Visuel : Sergej Khackimullin