Catalogue des datasets de data.gouv.fr pour le Machine Learning

Cette page a pour vocation de référencer les principaux jeux de données qui se prêtent bien à l’apprentissage automatique (Machine Learning) disponibles sur data.gouv.fr. Elle n’est pas exhaustive et est ouverte aux contributions.

Pour en savoir plus sur le contexte dans lequel s’inscrit ce catalogue et sur sa construction vous pouvez lire l’article dédié.

Nous proposons ici un catalogue des jeux de données identifiés comme exploitables par des algorithmes d’apprentissage automatique regroupés par tâche.
Chaque jeu est accompagné :

  • d’un profiling qui vous permettra d’explorer le jeu de données et d’obtenir un résumé de ses statistiques descriptives ;
  • des résultats de l’entraînement et du test automatique d’algorithmes classiques de Machine Learning : métriques, matrices de confusion, graphiques, etc. (voir le guide pour mieux comprendre ces résultats).

Pour davantage de lisibilité, l’inventaire présenté ici est également disponible sous la forme d’une application.

N.b.: Cette page est en cours de construction et est ouvertes à la contribution plus de jeux de données sont à venir. Le profiling a été effectué avec Pandas Profiling et les modèles ont été entrainés à l’aide de mljar-supervised.

Régression

Émissions de CO2 et de polluants des véhicules commercialisés en France
Ce jeu de données présente l’ensemble des caractéristiques techniques des véhicules commercialisés en France en 2013, ainsi que les consommations de carburant, les émissions de CO2 et de polluants de l’air.

Liste des logements proposés en Airbnb sur Bordeaux
Ce jeu de données contient un recensement des caractéristiques des logements (prix par nuit, nombre de pièces, services disponibles, etc.) proposés par Airbnb à Bordeaux.

AGRIBALYSE® - Synthèse
AGRIBALYSE® est une base de données de référence des indicateurs d’impacts environnementaux des produits agricoles et des produits alimentaires consommés en France. Vous trouverez le recensement des caractéristiques de plusieurs aliments ainsi que les émissions de polluants qui leur sont associés.

  • Profiling
  • Modèle (target variable: DQR — Note de qualité de la donnée (1 excellente ; 5 très faible))

Données carroyées issues du dispositif sur les revenus localisés fiscaux et sociaux
Ces données proviennent du dispositif sur les revenus localisés sociaux et fiscaux (FiLoSoFi) et contiennent des variables sur la structure par âge des individus, sur les caractéristiques des ménages et des logements et sur les revenus de l’année 2015. On se restreint ici au jeu de données correspondant à la France métropolitaine.

Demande de valeurs foncières
Publié et produit par la direction générale des finances publiques, ce jeu de données permet de connaître les transactions immobilières intervenues au cours des cinq dernières années sur le territoire métropolitain et les DOM-TOM. On se restreint ici aux données du premier trimestre de 2020.

Concentration horaire des polluants —Air ambiant —Lig'Air - Orléans Métropole
Ce jeu de données contient les concentrations moyennes horaires des principaux polluants de l’air réglementés dans la région Centre-Val de Loire : monoxyde d’azote NO et dioxyde d’azote NO2, particules en suspension PM10, particules en suspension PM2.5, ozone O3, monoxyde de carbone CO. Les données sont souvent mises à jour et peuvent donc évoluer.

Inventaire de gaz à effet de serre territorialisé
Ce jeu de données recense les effets de l’ensemble des gaz à effet de serre, en détaillant les émissions par commune et par secteur en 2016.

Insertion professionnelle des diplômés de Master en universités et établissements assimilés
Ce jeu contient les données issues de l’opération nationale de collecte de données sur l’insertion professionnelle (taux d’insertion, salaire, etc.) des diplômés de Master.

Classification

Bases de données annuelles des accidents corporels de la circulation routière - Années de 2005 à 2019
Ces jeux de données répertorient l’intégralité des accidents corporels de la circulation intervenus durant une année précise en France métropolitaine et dans les DOM-TOM. Ils comprennent des informations de localisation de l’accident ainsi que des informations concernant les caractéristiques de l’accident et son lieu, les véhicules impliqués et leurs victimes.
Ici nous avons choisi les données de 2019 et nous avons concaténé les jeux disponibles (caractéristique, lieux, véhicule, usager) dans un unique jeu de données.

Arbres urbains
Ce jeu de données comprend des informations sur la localisation, l’espèce, les dimensions, les spécificités et l’état de santé du patrimoine arboré de la commune de Saint-Germain-en-Laye.

Résultats des contrôles officiels sanitaires : dispositif d’information « Alim’confiance »
Ce jeu de données contient le résultat des contrôles officiels en sécurité sanitaire des aliments réalisés dans tous les établissements de la chaîne alimentaire : abattoirs, commerces de détail (métiers de bouche, restaurants, supermarchés, marchés, vente à la ferme, etc.), restaurants collectifs et établissements agroalimentaires.

Concentration horaire des polluants —Air ambiant —Lig'Air - Orléans Métropole
Ce jeu de données contient les concentrations moyennes horaires des principaux polluants réglementés dans l’air sur la région Centre-Val de Loire : monoxyde d’azote NO et dioxyde d’azote NO2, particules en suspension PM10, particules en suspension PM2.5, ozone O3, monoxyde de carbone CO. Les données sont souvent mises à jour et peuvent donc évoluer.

Données sur l’orientation des toits en France
Ces jeux de données, réutilisés dans le projet [OpenSolar]( https://github.com/opensolarmap/solml), se composent d’un datasses contributions (id OpenStreetMap du bâtiment ainsi que l’orientation du toit) et bâtiments (id, géométrie, surface du bâtiment et orientation du toit).

Séries temporelles

Données hospitalières relatives à l’épidémie de COVID-19
Cinq jeux de données différents sont proposés contenant des données sur les hospitalisations, les réanimations et les décès, regroupés par région, puis par département et par sexe, par classe d’âge et par établissements.

Données des urgences hospitalières et de SOS Médecins relatives à l’épidémie de COVID-19
Quatre jeux de données qui contiennent les données quotidiennes de SOS Médecins et des urgences hospitalières en relation à l’épidémie de Covid-19. On s’intéresse ici au jeu de données des passages quotidiens par département et par tranche d’âge.

Indicateurs de suivi de l’épidémie de COVID-19
Les données mises à disposition présentent la valeur quotidienne de 4 indicateurs (activité épidémique, taux de positivité des tests virologiques, évolution du R0, tension hospitalière sur la capacité en réanimation) au niveau national et départemental depuis le 15 mars 2020. On s’intéresse ici aux données par département.

Éclairage public de la ville de Béthune 2017-2019
Ce jeu de données contient des données sur l’éclairage public de la ville de Béthune (62400) sur la période de janvier 2017 à décembre 2019. En particulier : la consommation en kWhEN, la dépense en euros TTC, l’émission GES (KgCO2).

Apprentissage non supervisé

Parcoursup 2020
Ce jeu de données présente les voeux de poursuite d’études et de réorientation dans l’enseignement supérieur ainsi que les propositions des établissements pour chaque formation — hors apprentissage — à la fin du processus d’affectation de la plateforme Parcoursup pour la session 2020

Traitement automatique du langage

PIAF un jeu de données de questions réponses francophones

Jeux de données 16

Emissions de CO2 et de polluants des véhicules commercialisés en France

Depuis 2001, l’ADEME acquiert tous les ans ces données auprès de l’Union Technique de l’Automobile du motocycle et du Cycle UTAC (en charge de l’homologation des véhicules avant leur mise en vente) en accord avec le ministère du développement durable. Pour chaque véhicule les données d’origine…
Couverture temporelle
2001–2015
Fréquence
Annuelle
Couverture spatiale
France
Granularité de la couverture territoriale
Pays

liste des logements proposés en Airbnb sur Bordeaux

Ce listing recense les logements disponible ssur le site de location Airb'n'b sur le territoire de Bordeaux. Il est produit par l'observatoire Airbnb

AGRIBALYSE® - Synthèse

Version : AGRIBALYSE® v3.0.1 AGRIBALYSE® est une base de données de référence des indicateurs d'impacts environnementaux des produits agricoles produits en France et des produits alimentaires consommés en France. Ces données ont vocation à contribuer à la transition environnementale des systèmes…
Fréquence
Inconnu

Données carroyées issues du dispositif sur les revenus localisés fiscaux et sociaux (FiLoSoFi)

Ces données proviennent du dispositif sur les revenus localisés sociaux et fiscaux (FiLoSoFi). Les bases contiennent 26 variables sur la structure par âge des individus, sur les caractéristiques des ménages et des logements et sur les revenus perçus au cours de l’année 2015. Le champ géographique…
Couverture temporelle
2015
Fréquence
Sans régularité
Couverture spatiale
France
Granularité de la couverture territoriale
Autre

Demandes de valeurs foncières (DVF)

Propos liminaires Conformément au décret n° 2018‑1350 du 28 décembre 2018 relatif à la publication sous forme électronique des informations portant sur les valeurs foncières déclarées à l’occasion des mutations immobilières, le présent fichier DVF est désormais disponible en open data. La…
Couverture temporelle
2017–2021
Fréquence
Semestrielle
Couverture spatiale
France
Granularité de la couverture territoriale
Point d'Intérêt

Inventaire de gaz à effet de serre territorialisé

Le Ministère en charge de l’Environnement a chargé le Centre Interprofessionnel Technique d’Etudes de la Pollution Atmosphérique (CITEPA) d’une mission de « territorialisation » – ou « spatialisation » - de l’inventaire national de GES. La résolution spatiale est communale, structures stables dans…
Fréquence
Inconnu

Insertion professionnelle des diplômés de Master en universités et établissements assimilés

Ces informations sont basées sur les données collectées dans le cadre de l'opération nationale de collecte de données sur l’insertion professionnelle des diplômés de Master. Cette enquête a été menée en décembre 2013, 30 mois après l’obtention de leur diplôme, auprès de 59 600 diplômés de Master…
Couverture temporelle
2010–2013
Fréquence
Annuelle
Couverture spatiale
France
Granularité de la couverture territoriale
Point d'Intérêt

Arbres urbains

Ce jeu de données comprend des informations sur la localisation, l’espèce, les dimensions, les spécificités et l’état de santé du patrimoine arboré de la commune de Saint-Germain-en-Laye. Etalab répertorie ce type de jeu de données sous l'appellation "Schéma des attributs des arbres urbains". NB 1…
Fréquence
Annuelle
Couverture spatiale
Saint-Germain-en-Laye
Granularité de la couverture territoriale
Commune française

Résultats des contrôles officiels sanitaires : dispositif d'information « Alim’confiance »

La publication des résultats des contrôles sanitaires dans le secteur alimentaire (restaurants, cantines, abattoirs, etc.) est une attente légitime des citoyens qui participe à l’amélioration de la confiance du consommateur. Prévue par la loi d’Avenir pour l’agriculture, l’alimentation et la…
Couverture temporelle
2017–2020
Fréquence
Hebdomadaire
Couverture spatiale
France
Granularité de la couverture territoriale
Point d'Intérêt

Concentration horaire des polluants - Air ambiant - Lig'Air - Orléans Métropole

Données issues du portail open data de Lig'Air https://data-ligair.opendata.arcgis.com/ , filtrées sur les codes INSEE des communes d'Orléans Métropole. Le portail Lig'Air est interrogé toutes les heures. Concentrations moyennes horaires issues du réseau fixe des mesures européennes des principaux…
Fréquence
Inconnu

Données brutes de contribution anonymisées

Ce jeu de données est composé de 2 fichiers: 1) les contributions avec: id (OpenStreetMap) du bâtiment orientation choisie (1 à 4) identifiant du contributeur (anonymisé) timestamp 2) les bâtiments: id (OpenStreetMap) du bâtiment géométrie (format GeoJSON) surface du bâtiment (en m2) ratio…
Fréquence
Ponctuelle
Granularité de la couverture territoriale
Point d'Intérêt

Données hospitalières relatives à l'épidémie de COVID-19 (SIVIC)

⚠️ 14/05/2022 A partir du 14 mai 2022, les indicateurs quotidiens (hors SI-DEP) sont publiés les jours ouvrés. Les données publiées tiendront compte des rattrapages des données du week-end et jours fériés. Les indicateurs SI-DEP (nombre de nouveaux cas) sont publiés tous les jours de la semaine y…
Fréquence
Quotidienne
Couverture spatiale
France
Granularité de la couverture territoriale
Autre

Données des urgences hospitalières et de SOS médecins relatives à l'épidémie de COVID-19

INFORMATION IMPORTANTE ⚠️ 27/04/2022 : Depuis le 25 avril 2022, les données SOS Médecins transmises quotidiennement sont incomplètes. Les indicateurs sont donc à interpréter avec prudence. ⚠️ 21/02/2022 : Depuis le 16 février 2022, les données SOS Médecins reçues proviennent de 39 associations…
Fréquence
Inconnu
Granularité de la couverture territoriale
Département français

Indicateurs de suivi de l’épidémie de COVID-19

Présentation des indicateurs de suivi Le 28 mai 2020, le gouvernement a présenté dans le cadre de la deuxième étape du plan de déconfinement, la carte de synthèse des départements qui sert de référence pour les mesures différenciées appliquées depuis le 2 juin. Cette carte est construite sur la…
Fréquence
Quotidienne

Éclairage public de la ville de Bethune 2017-2019

Éclairage public de la ville de Béthune (62400) sur la période de janvier 2017 à décembre 2019. Consommation en en kWhEN ; Dépense en euros TTC ; Émission GES (KgCO2). Données recensées par armoire mensuellement.
Couverture temporelle
2017–2019
Fréquence
Annuelle
Granularité de la couverture territoriale
Commune française

Parcoursup 2020 - vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements

Ce jeu de données présente les voeux de poursuite d’études et de réorientation dans l’enseignement supérieur ainsi que les propositions des établissements pour chaque formation – hors apprentissage – à la fin du processus d’affectation de la plateforme Parcoursup pour la session 2020 (du 22…
Fréquence
Inconnu