J'ai effectué une analyse des données du Grand Débat disponibles à ce jour. Il y a à la fois des cartes représentant la participation pour chaque questionnaire, des graphes représentant la temporalité des réponses mais aussi une carte et une analyse de temporalité pour les événements. Pour les questionnaires, j'ai fait une analyse des questions fermés mais aussi des questions ouvertes. Pour les questions ouvertes, j'ai extrait les expressions les plus utilisées pour ensuite écrire une synthèse. J'ai également pris soin d'analyser systématiquement le taux de participation aux questions qui montre l'intérêt sur certaines questions et le désintérêt sur d'autres.

Pour l'analyse des questions ouvertes, j'ai extrait les expressions les plus utilisées ainsi que leur occurence. Pour chaque question, nous avons lu ces expressions et nous avons ensuite rédigé une synthèse reprenant les principaux thèmes abordés. Lorsque le contexte d'une expression n'est pas évident, nous avons lu un certain nombre de contributions contenant l'expression. Cette synthèse n'a pas la prétention d'être exhaustive.

Plus en détail, voici les étapes pour l'extraction des expressions les plus utilisées:

  • Séparation des mots et ponctuations
  • Mise en minuscule
  • Mise des mots sous forme canonique. Cette méthode utilise du machine learning et est imparfaite, générant parfois des formes canoniques inexistantes ou incorrectes. Comme la lecture des expressions est manuelle, nous repérons les formes inexactes et cela ne gêne en rien la compréhension et la synthèse.
  • Suppression des symboles spéciaux (ponctuations, caractères arithmétiques)
  • Suppression des "mots vides", mots très communs qui apportent peu de sémantique (par exemple "le", "ce", "que")
  • Compte des apparitions de chaque mot, tri et sélection des 150 mots les plus fréquents
  • Application du même traitement aux groupes de 2, 3 et 4 mots et sélection des 75 groupes les plus fréquents pour chaque taille de groupe

Discussions

Discussion entre l'organisation et la communauté à propos de ce jeu de données.