Découvrez les coups de coeur de l'équipe Etalab !
Open Data Day 2020 : ce que les membres d’Etalab ont retenu l'année passée

L'Open Data Day, ou journée mondiale des données ouvertes, a été instauré en 2010 suite à une proposition de l'entrepreneur, activiste et professeur en politiques publiques canadien David Eaves.

Depuis 2010, chaque année, se tiennent entre février et mars une centaine d'évènements dans le monde portant sur les données ouvertes (conférences, hackathons, ateliers, etc.).

À l'occasion de l'Open Data Day 2020, Etalab revient sur ce qui a marqué les membres de l'équipe en 2019.


Les choix d'Antoine, ingénieur logiciel

L'open data pour l'amélioration du service aux usagers

Les données des temps d'attente aux espaces de vente SNCF

Le jeu de données des temps d'attente aux espaces de vente de la SNCF recense le nombre quotidien de personnes ayant attendu plus de 30 minutes et plus de 60 minutes dans les espaces de vente des grandes gares SNCF Parisiennes (Paris Montparnasse, Paris Gare de Lyon, Paris Gare de l’Est, Paris Gare du Nord, Paris Saint Lazare).. L'exploitation de ces données permet à la SNCF d'identifier les pics d'attente et de mettre en place des solutions ciblées afin de réduire ces délais.

L'ouverture de données sur le service aux usagers d'une administration est toujours un pas en avant pour la transparence. C'est aussi une invitation à l'amélioration collective du service public.

L'open data pour nourrir les débats de société

Les temps de parole des femmes et des hommes dans les médias français

Le temps de parole des femmes et des hommes à la télévision et à la radio publié par l'INA constitue une archive inédite de la parité homme-femme dans les médias français. Le jeu de donnée a été constitué grâce à une technologie avancée issue de la recherche en deep learning (l'INA Speech Segmenter) qui a permis le traitement de 700 000 heures d'émissions diffusées entre 2001 et 2018 sur 22 chaînes de télévision et 21 stations de radio.

« Les femmes n’occupent en moyenne qu’un tiers du temps de parole à la télévision et à la radio. »


Les choix de Paul-Antoine, data scientist

L'open data pour la transparence des administrations

Le Répertoire National des Elus (RNE)

En janvier 2019, suite à la parution du décret n° 2018-1117 du 10 décembre 2018 relatif aux catégories de documents administratifs pouvant être rendus publics sans faire l'objet d'un processus d'anonymisation, le Ministère de l'Intérieur a publié le Répertoire national des élus (RNE).

Le RNE a déjà suscité plusieurs réutilisations dont une application qui permet d'identifier les élus locaux en indiquant une adresse postale ou un article de presse par Le Dauphiné qui met à disposition un outil d'exploration interactive des données.

Les données du grand débat

En 2019 ont aussi été publiées les données de la plateforme du grand débat national, pour permettre des analyses exhaustives. De nombreuses réutilisations ont été publiées sur la base de ces données, dont une application qui permet l'exploration des données et une plateforme collaborative d'annotations pour enrichir les contributions et prévenir les risques de lectures simplifiées ou erronées en cas de traitement par une intelligence artificielle.


Le choix de Périca, chef du département Etalab

L'open data à l'échelle de l'Europe

La directive PSI 2019/1024(Public sector information) du Parlement européen et du Conseil du 16 juillet 2019 fournit désormais un cadre juridique commun concernant les données ouvertes et la réutilisation des informations du secteur public.

Fait marquant, la Commission européenne a consacré la notion de high value datasets (« jeux de données à forte valeur »), d'après un principe institué à l'origine en France par la loi pour une République numérique du 7 octobre 2016. Ce qui confirme le constat de l'Open Data Maturity report, plaçant la France à l'avant garde et source d'inspiration pour l'Union Européenne.

Avec le principe de high value datasets, la Commission européenne se donne la possibilité d’adopter une liste de jeux de données reconnus pour leur utilité publique de premier ordre (données environnementales, météorologiques, économiques ou encore liées à la mobilité et aux transports...). Ces données devront être mises à disposition dans des formats lisibles par machine et gratuitement, par l’intermédiaire d’API.


Les choix de Bastien, référent logiciels libres

Ouvrir les codes sources du service public

Les codes sources du service public

Dans le cadre de la Politique de contribution de l'État aux logiciels libres, la DINUM (Direction Interministérielle du Numérique, dont Etalab est un département) collecte la liste des codes sources du service public. Etalab a mis en place, à partir de ces données, un service listant l'ensemble des codes sources ouverts par l'administration publique.

La liste des noms de domaines en .gouv.fr

Jean-Baptiste Le Dévéhat, designer pour le programme Entrepreneurs d'Intérêt Général en 2019, a réalisé un graphe dynamique de la constellation de sites en .gouv.fr à partir de plusieurs jeux de données dont ceux de l'AFNIC (Association française pour le nommage Internet en coopération) et un travail de compilation à la main entrepris par Bastien au sein d'Etalab.


Le choix de Romain, responsable du pôle données

Les données sur les transactions immobilières

L'open data au service de l'économie

La Direction Générale des Finances Publiques (DGFIP) publie depuis avril 2019 les données relatives aux 15 millions de transactions immobilières regroupées dans une base de donnée appelée « demandes de valeurs foncières », ou DVF pour les initiés.

Les données sur les valeurs foncières étaient jusque là consultables sur impots.gouv.fr, mais elles nécessitaient un numéro fiscal pour pouvoir être consultées. Bercy a souhaité aller plus loin dans l’ouverture de la base DVF, en la rendant publique sur data.gouv.fr.

Depuis cette ouverture, de nombreux acteurs du secteur de l’immobilier ont intégré ces données dans leurs services afin d’enrichir l’expérience de leurs utilisateurs.

De nombreuses applications ont été créées comme l'explorateur de biens vendus, un site de consultation du cadastre enrichi des valeurs immobilières ou encore l'explorateur de DVF conçu par Etalab et qui a connu un vif succès.


Le choix de Mathilde, chargée de mission open data

Le référencement et la promotion des schémas de données

L'open data de qualité

Aujourd'hui, de nombreux jeux de données sont publiés à une échelle locale ou administrative. Néanmoins, ces jeux de données sont souvent difficilement exploitables : diversité des formats, absence de formalisme dans les titres de colonnes, champs erronés, mauvais encodage, etc.

Or, les bénéfices de l'open data sont directement tributaires de la capacité des réutilisateurs à exploiter facilement les données publiées.

Ces défauts de qualité sont souvent la conséquence d'une absence de règles précises dans la manière de produire un jeu de données. Afin de guider les producteurs de données, l'équipe d'Etalab propose désormais le site schema.data.gouv.fr, qui référence l'ensemble des schémas de données publics connus en France. Un schéma de données, c’est justement un ensemble de règles qui facilite la production d'un jeu de données de bonne qualité :

  • description univoque des différents champs et valeurs possibles,
  • structure,
  • format,
  • documentation, etc.

À titre d'exemple, le schéma de la base adresse locale donne aux collectivités des règles précises pour produire une base adresse à un niveau territorial. À partir de l'ensemble des bases adresses locales produites par les collectivités, il devient facile d'agréger et d'exploiter les données d'adresses.

Le service schema.data.gouv.fr est un outil collaboratif : la création de nouveaux schémas peut être justifié par voie réglementaire ou par voie d'usage. Ce qui signifie que chacun est libre de proposer à la communauté open data un nouveau schéma de données !


Les choix d'Alexandre, directeur technique

L'open data au service de l'environnement

Les données « temps réel » de mesure des concentrations de polluants atmosphériques réglementés

Le Laboratoire Central de Surveillance de la Qualité de l'Air publie depuis 2018 les données aggrégées de surveillance de la qualité de l’air ambiant en France. Ces données sont collectées sur le territoire français par les Associations Agréées Surveillance Qualité de l'Air (AASQA) et rassemblées par le LCSQA puis mise à disposition sur data.gouv.fr.

Depuis 2018, ce sont près de 16 000 fichiers pour un total de 65 Go de données qui ont été mis en ligne. Une véritable manne de données pour qui s'intéresse à la pollution de l'air. Ces données sont mises à jour toutes les heures. Elles sont aujourd'hui disponibles au format XML mais devraient être disponible dans un format plus accessible (CSV) dans les prochains mois, ceci afin de favoriser les réutilisations.

Les données du contrôle sanitaire de l'eau du robinet

La Direction Générale de la Santé publie depuis février 2019 les résultats du contrôle sanitaire de l’eau du robinet. L’eau du robinet est en France l’aliment le plus contrôlé. Elle fait l’objet d’un suivi sanitaire permanent, destiné à en garantir la sécurité sanitaire, depuis le captage dans le milieu naturel, jusqu’au robinet du consommateur.. Le jeu de données inclu les prélèvements et résultats des analyses réalisées dans le cadre du contrôle sanitaire réglementaire des eaux.

La mise à disposition de ces données en open data a permis d’accroître la transparence sur la qualité des eaux potables, mais a également permis de rationnaliser les processus métier de la DGS.

Désormais, les réutilisateurs de la base SISE-Eaux passent par la plateforme data.gouv.fr et se basent sur la documentation réalisée par la DGS afin d’exploiter les données.


Le choix de Marion, data scientist

Porté par la loi « Pour la liberté de choisir son avenir personnel » du 5 septembre 2018, l’Index d’égalité professionnelle a été conçu pour faire progresser l’égalité professionnelle entre les hommes et les femmes dans les entreprises.

Cet indice, dont le calcul est obligatoire pour les très grandes entreprises (plus de 1000 salariés) depuis le 1er mars 2019, pour les grandes entreprises (plus de 500 salariés) depuis le 1er septembre 2019, et enfin pour toutes les entreprises de plus de 50 salariés depuis le 1er mars 2020, agrège 4 à 5 critères selon la taille de l’entreprise :

  • L’écart de rémunération femmes-hommes,
  • L’écart de répartition des augmentations individuelles,
  • L’écart de répartition des promotions (uniquement dans les entreprises de plus de 250 salariés),
  • Le nombre de salariées augmentées à leur retour de congé de maternité,
  • la parité parmi les 10 plus hautes rémunérations

En dessous du score de 75/100, l’entreprise dispose de 3 ans pour mettre en place des mesures correctives permettant d’atteindre ce seuil.

On imagine aisément l’utilité de cette base, encore plus lorsqu’elle contiendra toutes les entreprises soumises au dispositif. Une excellente manière de réaliser une photographie, et de mesurer l’évolution de l’égalité hommes-femmes dans le monde de l’entreprise !


Pour en savoir plus, retrouvez aussi la rétrospective complète d'Etalab pour 2019, toutes les sorties du mois ainsi que nos articles sur le blog d'Etalab !

Commentaires sur cet article.