Les données sources sont les données SISE sur les inscriptions entre 2010 et 2024, auxquelles nous adjoignons cette année pour la première fois les données BPBAC entre 2012 et 2024. Ces dernières concernent les étudiantes et étudiants scolarisés dans des formations du supérieur délivrées dans des établissements du second degré. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2019 et 2024.
Les données sources sont toutes les données SISE (système d'information pour le suivi des étudiants) sur les inscriptions et les réussites entre 2010 et 2023. Soit les années universitaires 2010-2011 à 2023-2024. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2019 et 2024.
L'exploitation de ces données sources a été réalisée le 23 octobre 2025 pour générer le jeu de données ouvertes.
L'un des objectifs du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles dans leur plus grande variété, de façon à enrichir le dialogue d'orientation. Les données produites s'attachent à préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatifs sur les flux et les réussites.
Les données sources nécessitent d'accéder à des codifications auxilliaires pour être comprises. Nous avons conservé ces références externes dans les données produites sans les résoudre. Pour améliorer leur exploitation nous produisions une version orthotypographiée des noms utilisés dans ces référentiels externes.
Les codes UAI (unité administrative immatriculée) identifient de manière unique les établissements publics et privés d'enseignement et leurs composantes (ils succèdent aux codes RNE, répertoire national des établissements). La donnée de référence sur cette nomenclature est accessible sur le site du ministère de l'Éducation nationale et de la jeunesse via l'application de consultation et cartographie des établissements. https://www.education.gouv.fr/acce_public/search.php?mode=advanced
Les codes SISE des diplômes sont accessibles via un portail de la direction de l’Évaluation, de la prospective et de la performance du ministère de l'Éducation nationale et de la jeunesse appelé base centrale des Nomenclatures accessible à l'URL : https://bcn.depp.education.fr/. On peut y retrouver, par exemple, les codes SISE des diplômes https://bcn.depp.education.fr/bcn/workspace/viewTable/n/N_DIPLOME_SISE.
Les données BPBAC font quant à elles références à des codes de formation appelés codes MEF. Cette codification sur 11 caractères numériques se distingue bien des codes SISE sur 7 caractères alphanumériques. Les codes MEF sont également employée pour la scolarité avant le bac. On en retrouve une nomenclature ici https://bcn.depp.education.fr/bcn/workspace/viewTable/n/V_MEF_STAT_11. Dans les cas où ces codes sont utilisés le niveau après-bac est mis à zéro et devra être reconstruit par analyse de la nomenclature externe (le motif est alors 0-[0-9]{11}- tandis que les codes SISE répondent au motif [0-6]-[0-9A-Z]{7}-).
La méthode d'anonymisation que nous avons employée est une variante de la k-anonymisation pour k = 5. Cette méthode est détaillée plus bas.
Le format de sortie est le CSV, avec une virgule comme séparateur et des guillemets doubles (ascii) autour de chaque champ (y compris les champs numériques), en UTF-8.
Les données sources consistent en exactement 35 146 984 inscriptions et 10 288 159 individus, mais nous ne retenons que 6,6 millions parcours individuels (6 592 485 exactement) en ne conservant que les parcours d'étude avec une inscription en 2019 ou après.
Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant⋅es d'après les données SISE restreintes à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE. Y sont ajoutées les données BPBAC. Dans cette extraction, un nombre inhabituel de codes formations sont mal formés. Les codes formations bien formés correspondent à 115 825 codes SISE et 17 401 codes BPBAC laissant 1621 codes mal formés (1,2 %).
Précaution d'anonymisation : le drapeau OPPOS à 'O' des données sources, qui signifie une inscription dans un établissement privé n'ayant pas explicitement donné son consentement pour apparaître en tant qu'établissement identifié est ici respecté en masquant toute référence à l'établissement que ce soit pour l'UAI de sa composante d'enseignement ou pour l'UAI de l'établissement de rattachement. Ils sont tous deux remplacés par le code d'académie. Le code académie est sur deux chiffres, tandis que les UAI font 8 caractères il est donc facile de distinguer ces cas.
Une cohorte est caractérisée par un parcours d'études c'est à dire une séquence d'inscriptions principales dans des formations, une par année d'inscription et organisées selon les années croissantes. Contrairement à ce que laisse suggérer le nom la cohorte n'est pas un groupe d'individus ayant suivant simultanément le même parcours, le parcours d'étude peut ici avoir été effectué à des moments différents. Le nombre de personnes ayant suivi exactement ce parcours d'études est l'effectif de la cohorte. Les années d'inscriptions ne sont pas conservés dans cette donnée. Par contre, lorsque les inscriptions sautent une ou plusieurs années, le mot-clé "trou" remplace le code formation dans la séquence. Et des attributs annexes dans d'autres fichiers viennent enrichir la cohorte. On y retrouve notamment les années de première et de dernière inscription.
Précaution d'anonymisation. Nous appliquons une forme de k-anonymisation des effectifs (k = 5). En effet, nous avons pris la précaution de ne pas publier l'effectif des cohortes trop singulières c'est-à-dire composées de moins de 5 parcours individuels. Le parcours est alors conservé mais son effectif est remplacé par un zéro, pour conserver l'homogénéité du type numérique pour la colonne.
Cette anonymisation des cohortes nous fait perdre 2.8 millions (2 780 228) de parcours individuels trop spécifiques pour que leur effectif réel soit publié dans les données produites. Cela se traduit par 2 454 662 cohortes avec un effectif masqué par un zéro et 127 952 avec un effectif de 5 personnes ou plus, pour un total de 2 582 614. Ces cohortes avec un effectif nul avaient donc en moyenne un effectif de 1.133 personnes.
Les codes formation mal formés concernent malheureusement 988 353 cohortes dont 970 955 avec un effectif nul et 17 398 totalisant un effectif de 584 250 parcours.
Les personnes composant chaque cohorte étaient porteuses d'attributs :
Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes aynat obtenues leurs bac en 2015.
De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :
Informe sur la proportion de parcours dans la cohorte pour lesquels on observe au moins une année sans inscription après le parcours. C'est-à-dire qu'après la dernière année du parcours d'inscriptions, il y en a au moins une sans inscription.
Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique. Elles sont codées sur sept caractères formant un libellé intelligible. La nomenclature est disponible dans la base centrale des nomenclatures.
La même donnée mais pour chaque spécialité de terminale au bac général. Chaque individu est donc ici normalement représenté par zéro ou par deux unités dans l'effectif total selon s'il a obtenu un bac général de 2021 (2) ou plus récent ou un autre bac (0). La k-anonymisation brouille partiellement cette information.
0
0
Il n'y a pas encore de discussion