Catalogue des datasets de data.gouv.fr pour le Machine Learning

Cette page a pour vocation de référencer les principaux jeux de données qui se prêtent bien à l’apprentissage automatique (Machine Learning) disponibles sur data.gouv.fr. Elle n’est pas exhaustive et est ouverte aux contributions.

Pour en savoir plus sur le contexte dans lequel s’inscrit ce catalogue et sur sa constuction vous pouvez lire l’article dédié.

Nous proposons ici un catalogue des jeux de données identifiés comme exploitables par des algorithmes d’apprentissage automatique regroupés par tâche.
Chaque jeu est accompagné :

  • d’un profiling qui vous permettra d’explorer le jeu de données et d’obtenir un résumé de ses statistiques descriptives ;
  • des résultats de l’entraînement et du test automatique d’algorithmes classiques de Machine Learning : métriques, matrices de confusion, graphiques, etc. (voir le guide pour mieux comprendre ces résultats).

Pour davantage de lisibilité, l’inventaire présenté ici est également disponible sous la forme d’une application.

N.b.: Cette page est en cours de construction et est ouvertes à la contribution plus de jeux de données sont à venir. Le profiling a été effectué avec Pandas Profiling et les modèles ont été entrainés à l’aide de mljar-supervised.

Régression

Émissions de CO2 et de polluants des véhicules commercialisés en France
Ce jeu de données présente l’ensemble des caractéristiques techniques des véhicules commercialisés en France en 2013, ainsi que les consommations de carburant, les émissions de CO2 et de polluants de l’air.

Liste des logements proposés en Airbnb sur Bordeaux
Ce jeu de données contient un recensement des caractéristiques des logements (prix par nuit, nombre de pièces, services disponibles, etc.) proposés par Airbnb à Bordeaux.

AGRIBALYSE® - Synthèse
AGRIBALYSE® est une base de données de référence des indicateurs d’impacts environnementaux des produits agricoles et des produits alimentaires consommés en France. Vous trouverez le recensement des caractéristiques de plusieurs aliments ainsi que les émissions de polluants qui leur sont associés.

  • Profiling
  • Modèle (target variable: DQR — Note de qualité de la donnée (1 excellente ; 5 très faible))

Données carroyées issues du dispositif sur les revenus localisés fiscaux et sociaux
Ces données proviennent du dispositif sur les revenus localisés sociaux et fiscaux (FiLoSoFi) et contiennent des variables sur la structure par âge des individus, sur les caractéristiques des ménages et des logements et sur les revenus de l’année 2015. On se restreint ici au jeu de données correspondant à la France métropolitaine.

Demande de valeurs foncières
Publié et produit par la direction générale des finances publiques, ce jeu de données permet de connaître les transactions immobilières intervenues au cours des cinq dernières années sur le territoire métropolitain et les DOM-TOM. On se restreint ici aux données du premier trimestre de 2020.

Concentration horaire des polluants —Air ambiant —Lig'Air - Orléans Métropole
Ce jeu de données contient les concentrations moyennes horaires des principaux polluants de l’air réglementés dans la région Centre-Val de Loire : monoxyde d’azote NO et dioxyde d’azote NO2, particules en suspension PM10, particules en suspension PM2.5, ozone O3, monoxyde de carbone CO. Les données sont souvent mises à jour et peuvent donc évoluer.

Inventaire de gaz à effet de serre territorialisé
Ce jeu de données recense les effets de l’ensemble des gaz à effet de serre, en détaillant les émissions par commune et par secteur en 2016.

Insertion professionnelle des diplômés de Master en universités et établissements assimilés
Ce jeu contient les données issues de l’opération nationale de collecte de données sur l’insertion professionnelle (taux d’insertion, salaire, etc.) des diplômés de Master.

Classification

Bases de données annuelles des accidents corporels de la circulation routière - Années de 2005 à 2019
Ces jeux de données répertorient l’intégralité des accidents corporels de la circulation intervenus durant une année précise en France métropolitaine et dans les DOM-TOM. Ils comprennent des informations de localisation de l’accident ainsi que des informations concernant les caractéristiques de l’accident et son lieu, les véhicules impliqués et leurs victimes.
Ici nous avons choisi les données de 2019 et nous avons concaténé les jeux disponibles (caractéristique, lieux, véhicule, usager) dans un unique jeu de données.

Arbres urbains
Ce jeu de données comprend des informations sur la localisation, l’espèce, les dimensions, les spécificités et l’état de santé du patrimoine arboré de la commune de Saint-Germain-en-Laye.

Résultats des contrôles officiels sanitaires : dispositif d’information « Alim’confiance »
Ce jeu de données contient le résultat des contrôles officiels en sécurité sanitaire des aliments réalisés dans tous les établissements de la chaîne alimentaire : abattoirs, commerces de détail (métiers de bouche, restaurants, supermarchés, marchés, vente à la ferme, etc.), restaurants collectifs et établissements agroalimentaires.

Concentration horaire des polluants —Air ambiant —Lig'Air - Orléans Métropole
Ce jeu de données contient les concentrations moyennes horaires des principaux polluants réglementés dans l’air sur la région Centre-Val de Loire : monoxyde d’azote NO et dioxyde d’azote NO2, particules en suspension PM10, particules en suspension PM2.5, ozone O3, monoxyde de carbone CO. Les données sont souvent mises à jour et peuvent donc évoluer.

Données sur l’orientation des toits en France
Ces jeux de données, réutilisés dans le projet [OpenSolar]( https://github.com/opensolarmap/solml), se composent d’un datasses contributions (id OpenStreetMap du bâtiment ainsi que l’orientation du toit) et bâtiments (id, géométrie, surface du bâtiment et orientation du toit).

Séries temporelles

Données hospitalières relatives à l’épidémie de COVID-19
Cinq jeux de données différents sont proposés contenant des données sur les hospitalisations, les réanimations et les décès, regroupés par région, puis par département et par sexe, par classe d’âge et par établissements.

Données des urgences hospitalières et de SOS Médecins relatives à l’épidémie de COVID-19
Quatre jeux de données qui contiennent les données quotidiennes de SOS Médecins et des urgences hospitalières en relation à l’épidémie de Covid-19. On s’intéresse ici au jeu de données des passages quotidiens par département et par tranche d’âge.

Indicateurs de suivi de l’épidémie de COVID-19
Les données mises à disposition présentent la valeur quotidienne de 4 indicateurs (activité épidémique, taux de positivité des tests virologiques, évolution du R0, tension hospitalière sur la capacité en réanimation) au niveau national et départemental depuis le 15 mars 2020. On s’intéresse ici aux données par département.

Éclairage public de la ville de Béthune 2017-2019
Ce jeu de données contient des données sur l’éclairage public de la ville de Béthune (62400) sur la période de janvier 2017 à décembre 2019. En particulier : la consommation en kWhEN, la dépense en euros TTC, l’émission GES (KgCO2).

Apprentissage non supervisé

Parcoursup 2020
Ce jeu de données présente les voeux de poursuite d’études et de réorientation dans l’enseignement supérieur ainsi que les propositions des établissements pour chaque formation — hors apprentissage — à la fin du processus d’affectation de la plateforme Parcoursup pour la session 2020