Les données sources sont toutes les données SISE (système d'information pour le suivi des étudiants) sur les inscriptions et les réussites entre 2010 et 2023. Soit les années universitaires 2010-2011 à 2023-2024. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2023.
L'exploitation de ces données sources a été réalisée le 17 décembre 2024 pour générer le jeu de données ouvertes.
L'un des objectifs du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles dans leur plus grande variété, de façon à enrichir le dialogue d'orientation. Les données produites s'attachent à préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatifs sur les flux et les réussites.
Les données sources nécessitent d'accéder à des codifications auxilliaires pour être comprises. Nous avons conservé ces références externes dans les données produites sans les résoudre. Pour améliorer leur exploitation nous produisions une version orthotypographiée des noms utilisés dans ces référentiels externes.
Les codes UAI (unité administrative immatriculée) identifient de manière unique les établissements publics et privés d'enseignement et leurs composantes (ils succèdent aux codes RNE, répertoire national des établissements). La donnée de référence sur cette nomenclature est accessible sur le site du ministère de l'Éducation nationale et de la jeunesse via l'application de consultation et cartographie des établissements. https://www.education.gouv.fr/acce_public/search.php?mode=advanced
Les codes SISE des diplômes sont accessibles via un portail de la direction de l’Évaluation, de la prospective et de la performance du ministère de l'Éducation nationale et de la jeunesse appelé base centrale des Nomenclatures accessible à l'URL : https://bcn.depp.education.fr/. On peut y retrouver, par exemple, les codes SISE des diplômes https://bcn.depp.education.fr/bcn/workspace/viewTable/n/N_DIPLOME_SISE.
La méthode d'anonymisation que nous avons employée est une variante de la k-anonymisation pour k = 5. Cette méthode est détaillée plus bas.
Le format de sortie est le CSV, avec une virgule comme séparateur et des guillemets doubles (ascii) autour de chaque champ (y compris les champs numériques), en UTF-8.
Les données sources consistent en 31,6 millions d'inscriptions concernant 9,7 millions de parcours individuels (exactement 31 667 860 inscriptions et 9 708 377 individus), mais nous n'en retenons que 5,7 millions en ne conservant que ceux avec une inscription en 2018 ou après (5 669 974 exactement).
Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant⋅es d'après les données SISE restreintes à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.
Précaution d'anonymisation : le drapeau OPPOS à 'O' des données sources, qui signifie une inscription dans un établissement privé n'ayant pas explicitement donné son consentement pour apparaître en tant qu'établissement identifié est ici respecté en masquant toute référence à l'établissement que ce soit pour l'UAI de sa composante d'enseignement ou pour l'UAI de l'établissement de rattachement. Ils sont tous deux remplacés par le code d'académie. Le code académie est sur deux chiffres, tandis que les UAI font 8 caractères il est donc facile de distinguer ces cas.
Une cohorte est caractérisée par un parcours d'études c'est à dire une séquence d'inscriptions principales dans des formations, une par année d'inscription et organisées selon les années croissantes. Contrairement à ce que laisse suggérer le nom la cohorte n'est pas un groupe d'individus ayant suivant simultanément le même parcours, le parcours d'étude peut ici avoir été effectué à des moments différents. Le nombre de personnes ayant suivi exactement ce parcours d'études est l'effectif de la cohorte. Les années d'inscriptions ne sont pas conservés dans cette donnée. Par contre, lorsque les inscriptions sautent une ou plusieurs années, le mot-clé "trou" remplace le code formation dans la séquence. Et des attributs annexes dans d'autres fichiers viennent enrichir la cohorte. On y retrouve notamment les années de première et de dernière inscription.
Précaution d'anonymisation. Nous appliquons une forme de k-anonymisation des effectifs (k = 5). En effet, nous avons pris la précaution de ne pas publier l'effectif des cohortes trop singulières c'est-à-dire composées de moins de 5 parcours individuels. Le parcours est alors conservé mais son effectif est remplacé par un zéro, pour conserver l'homogénéité du type numérique pour la colonne.
Cette anonymisation des cohortes nous fait perdre 2.4 millions (2 447 595) de parcours individuels trop spécifiques pour que leur effectif réel soit publié dans les données produites. Cela se traduit par 2 175 292 cohortes avec un effectif masqué par un zéro. Ces cohortes avec un effectif nul avaient donc en moyenne un effectif de 1.125 personnes.
Les personnes composant chaque cohorte étaient porteuses d'attributs :
Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes aynat obtenues leurs bac en 2015.
De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :
Informe sur la proportion de parcours dans la cohorte pour lesquels on observe au moins une année sans inscription après le parcours. C'est-à-dire qu'après la dernière année du parcours d'inscriptions, il y en a au moins une sans inscription.
Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique. Elles sont codées sur sept caractères formant un libellé intelligible. La nomenclature est disponible dans la base centrale des nomenclatures.
La même donnée mais pour chaque spécialité de terminale au bac général. Chaque individu est donc ici normalement représenté par zéro ou par deux unités dans l'effectif total selon s'il a obtenu un bac général de 2021 (2) ou plus récent ou un autre bac (0). La k-anonymisation brouille partiellement cette information.
0
0