API tabulaire data.gouv.fr (beta)
Mis à jour le 17 juil. 2025
54K
12
Jeu de données mis à jour sous la forme d'une nouvelle publication de portée plus large : https://www.data.gouv.fr/fr/datasets/parcours-detudes-dans-lenseignement-superieur-france-entiere-a-partir-de-donnees-sise-2023-2024/
Les données sources sont toutes les données SISE (système d'information pour le suivi des étudiants) sur les inscriptions et les réussites entre 2010 et 2022. Soit les années universitaires 2010-2011 à 2022-2023. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2022. Pour se conformer à la demande d'accès à ces données que nous avions formulée nous nous sommes limités aux données concernant les académies de Paris, Créteil et Versailles. Nous envisageons d'étendre notre demande d'accès de façon à produire des données de portée nationale.
L'exploitation de ces données sources a été réalisée le 7 septembre 2023.
L'objectif du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles en Île-de-France dans leur plus grande variété, de façon à enrichir le dialogue d'orientation. Les données produites s'attachent à préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatif sur les flux et les réussites.
Pour plus d'informations sur le projet Oraccle voir le site https://oraccle.fr et sur l'action open data de ce projet voir la documentation https://data.pages.unif.app.
Les données sources nécessitent d'accéder à des codifications auxiliaires pour être comprises. Nous avons conservé ces références externes dans les données produites.
Les codes UAI (unité administrative immatriculée) identifient de manière unique les établissements publics et privés d'enseignement et leurs composantes (ils succèdent aux codes RNE, répertoire national des établissements). La donnée de référence sur cette nomenclature est accessible sur le site du ministère de l'Éducation nationale et de la jeunesse via l'application de consultation et cartographie des établissements (https://www.education.gouv.fr/acce_public/search.php?mode=advanced) et sur le portail open data de ce ministère (https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/).
Les codes SISE des diplômes étaient accessibles via un portail de la direction de l’Évaluation, de la prospective et de la performance du ministère de l'Éducation nationale et de la jeunesse. Ce portail appelé Infocentre apparait comme fermé, mais il fournit une base centrale des nomenclatures, https://infocentre.pleiade.education.fr/bcn/, où l'on peut retrouver les codes SISE de diplôme y compris avec des mises à jour très récentes
https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_DIPLOME_SISE.
La méthode d'anonymisation que nous avons employée est une variante de la k-anonymisation pour k = 5, avec un peu moins d'effacement. Cette méthode est détaillée plus bas.
Le format de sortie est le CSV, avec une virgule comme séparateur et des guillemets doubles (ascii) autour de chaque champ (y compris les champs numériques), en UTF-8.
Les données sources concernent 1,5 millions de parcours individuels (exactement 1 518 563 individus).
Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant⋅es d'après les données SISE restreintes à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.
précaution d'anonymisation : aucune.
nombre de lignes (formations) : 54 132.
Une cohorte est caractérisée par deux données, d'une part une séquence d'inscriptions principales dans des formations, une par année d'inscription et organisées selon les années croissantes et d'autre part un ensemble de formations réussies, ensemble organisé en séquence croissante selon l'ordre lexicographique. Le nombre de personnes ayant suivi exactement cette séquence d'inscriptions avec exactement cet ensemble de réussites est l'effectif de la cohorte. Si la cohorte avait un effectif inférieur à 5 son effectif n'est pas communiqué. Il est alors remplacé par un zéro (pour conserver l'homogénéité du type numérique pour la colonne). La séquence d'inscriptions ainsi que la liste des réussites sont conservés. Les années d'inscriptions ou de réussite ne sont pas conservés dans cette donnée. Par contre, lorsque les inscriptions sautent une ou plusieurs années, le mot-clé "trou" remplace le code formation dans la séquence.
Nous avons pris la précaution de ne pas publier l'effectif des cohortes trop singulières (moins de 5 individus dans la cohorte) et de le remplacer un zéro. Cette anonymisation des cohortes nous fait perdre 0,5 millions (543 180) de parcours individuels trop spécifiques pour être publiés dans les données produites. Cela se traduit par 47 3001 cohortes ayant un effectif masqué par un zéro. Ces cohortes avec un effectif nul avaient donc en moyenne un effectif de 1,148 personnes.
nombre de lignes (cohortes) : 503 882.
nombre de cohortes avec un effectif non masqué : 30 881.
Les personnes composant chaque cohorte étaient porteuses d'attributs :
Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes ayant obtenues leurs bac en 2015.
De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :
Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique. Elles sont codées sur sept caractères formant un libellé intelligible. La nomenclature est disponible dans la base centrale des nomenclatures https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_SPECIALITE_BAC_2021_SISE
0
0
Fréquence de mise à jour non respectée
Mis à jour le 17 juil. 2025
54K
12