PIAF - Le dataset francophone de Questions-Réponses PIAF - Q&A

Ce jeu de données provient d'un service public certifié

Informations

Licence
Other (Public Domain)
Couverture temporelle
2019/11/01 to 2021/03/25
Fréquence
Sans régularité
Date de création
1 avril 2020
Date de mise à jour
25 mars 2021
Dernière mise à jour de ressource
25 mars 2021

Extras

ID
5e83c3ed38f46c1808801fbb
Date de création
1 avril 2020
Date de mise à jour
25 mars 2021

PIAF, construire un jeu de données francophones ouvert pour l’IA

Le recours à l’intelligence artificielle au sein de l’action publique est souvent identifié comme une opportunité pour interroger des textes documentaires et réaliser des outils de questions/réponses (QR) automatiques à destination des usagers. Interroger le code du travail en langage naturel, mettre à disposition un agent conversationnel pour un service donné, développer des moteurs de recherche performants, améliorer la gestion des connaissances, autant d’activités qui nécessitent de disposer de corpus de données d’entraînement de qualité afin de développer des algorithmes de questions/réponses. Le dataset PIAF est un jeu de données d’entraînement francophone public et ouvert qui permet d’entraîner ces algorithmes.

En nous inspirant de SQuAD, le jeu de données bien connu de QR anglais, nous avons eu l’ambition de construire un jeu de données similaire qui serait ouvert à tous. Le protocole que nous avons suivi est très similaire à celui de la première version de SQuAD (SQuAD v1.1). Néanmoins, quelques modifications ont dû être apportées pour s’adapter aux caractéristiques du Wikipédia français. Une autre grande différence est que nous n’employons pas de micro-travailleurs via des plateformes de crowd-sourcing.

Après plusieurs mois d’annotation, nous avons une plateforme d’annotation robuste et libre, une quantité suffisante d’annotations et une démarche d’animation de communauté et de participation collaborative bien calée et innovante au sein de l’administration française.

PIAF : un outil mutualisé du Lab IA

En mars 2018, la France a lancé sa stratégie nationale pour l’intelligence artificielle. Pilotée au sein de la Direction interministérielle du numérique, cette stratégie comprend trois volets : la recherche, l’économie et la transformation publique.

La politique de la donnée étant un axe majeur du développement de l’intelligence artificielle, la mission Etalab pilote la mise en place d’un “Lab IA” interministériel, dont la mission est d’accélérer le déploiement de l’IA dans les administrations via 3 activités principales :

  1. Constituer une équipe coeur afin d’internaliser des compétences et de l’expertise autour de l’IA
  2. Accompagner des projets d’IA dans les administrations, par l’intermédiaire d’appels à manifestations d’intérêt
  3. Co-construire des outils mutualisés pouvant être utilisés de la manière la plus ouverte possible

Le projet PIAF est l'un des outils mutualisés du Lab IA.

Descriptif des données mises à disposition

Le dataset suive le format de SQuAD v1.1. PIAFv1.2 contient 9225 pairs des questions/réponses. Il s'agit d'un fichier type JSON. Un fichier texte exemplifiant le schéma est inclus ci-dessous. Ce fichier peut être utilisé pour générer et évaluer des modèles de Question-Réponse. Par exemple, en suivant ces instructions.

Merci aux 500 contributeurs !

Nous remercions profondément nos contributeurs qui ont fait vivre ce projet bénévolement jusqu’à aujourd’hui.

Liens

Des informations sur le protocole suivi, sur les actualités du projet, sur la plateforme d'annotation et le code lié, sont ici :

Ressources 4

Voir aussi : ressources communautaires

Fichier principal 2

3 téléchargements

question-reponse-sans-texte.csv

Disponible

Extraction des questions-réponses à partir du fichier piaf-v1.2.json pour les visualiser au format CSV

Type
Fichier principal
Type MIME
text/csv
sha1
331cde28a5eaa9cf0048ef1482e374ed7657a2a7
Créée le
25 mars 2021
Modifiée le
25 mars 2021
Publiée le
25 mars 2021

Documentation 1

Mise à jour 1

Embed

Vous pouvez facilement intégrer ce jeu de données sur votre site en collant cet extrait de code dans votre page html.

Ressources communautaires 0

Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !

Réutilisations 1

Vous avez réutilisé ces données et publié un article, une infographie, ou une application ? C'est le moment de vous faire connaître ! Référencez votre travail en quelques clics et augmentez votre visibilité.

Discussions 0

Discussion entre l'organisation et la communauté à propos de ce jeu de données.