Les données ouvertes pour l’apprentissage automatique (Machine Learning)

Après le mois d’avril dédié à la qualité des données, le mois de mai est dédié aux réutilisations de données dont nous présentions les principaux enjeux dans un article dédié.

C’est dans ce cadre que nous proposons un Catalogue de jeux de données de data.gouv.fr pour le Machine Learning qui, nous l’espérons, vous encouragera et vous aidera à réutiliser des données publiques.

Qu’est-ce que l’apprentissage automatique (Machine Learning) ?

L’apprentissage automatique (Machine Learning) est un champ d’études de l’intelligence artificielle qui vise à donner aux ordinateurs la capacité d’« apprendre » à partir d’échantillons de données à travers des algorithmes adaptés. Ce qui est appris par l’algorithme permet ensuite de faire des prédictions ou de prendre des décisions sur les données restantes.

Pourquoi les données ouvertes sont-elles importantes pour l’intelligence artificielle ?

La richesse et la diversité des jeux de données mis à disposition sur data.gouv.fr constituent une ressource pour être entraînées par ces algorithmes. L’utilisation de données ouvertes d’intérêt public dans l’apprentissage automatique peut nous apprendre des choses intéressantes sur ces données ou nous guider dans la prise de décision.

Pourquoi mettre à disposition un catalogue de données ?

Face au grand nombre de données disponibles, il peut s’avérer difficile de trouver le jeu de données idéal selon la tâche d’apprentissage voulue. De la même manière, il est complexe de déterminer la performance des algorithmes d’apprentissage automatique sur un jeu choisi.

La mise a disposition d’un catalogue ainsi que d’une application Web permet d’identifier rapidement un jeu de données selon la tâche d’apprentissage supervisé (régression ou classification) ou non supervisé que vous souhaitez entreprendre.

Comment avons-nous construit ce catalogue ?

Pour sélectionner ces jeux de données, nous avons appliqué la méthodologie suivante :

Premièrement, nous avons sélectionné des jeux de données de taille adéquate pour pouvoir entraîner et tester les algorithmes.
Nous avons sélectionné des jeux avec un bon équilibre entre nombre de variables catégorielles et nombre de variables numériques. Pour les variables catégorielles, nous avons privilégié un nombre faible de classes et des classes assez équilibrées.
Enfin, nous avons pris en compte la proportion de valeurs manquantes, l’éventuelle présence de variables à haute cardinalité, la complexité du prétraitement nécessaire pour pouvoir entraîner les algorithmes et la complexité liée au regroupement de plusieurs jeux de données différents.

Chaque jeu de données est accompagné d’un profiling statistique vous permettant de voir rapidement ses caractéristiques, ainsi que d’un rapport qui contient les résultats de l’entraînement et du test automatique d’algorithmes d’apprentissage automatique.

À vous de jouer !

Explorez le catalogue et partager vos réutilisations de données sur data.gouv.fr !

Nous nous ferons un plaisir de les mettre en avant sur la plateforme ainsi que sur twitter.

Vous pouvez aussi contribuer à enrichir ce catalogue en nous signalant tout jeu de données qui vous paraît adapté à ces tâches.

Pour ne rien manquer, de l’actualité de data.gouv.fr et de l’open data, inscrivez-vous à notre infolettre.