data.gouv.fr

jeu mis à jour ici : https://www.data.gouv.fr/datasets/parcours-detudes-dans-lenseignement-superieur-france-entiere-a-partir-de-donnees-sise-et-bpbac-2024-2025

Données sources

Les données sources sont toutes les données SISE (système d'information pour le suivi des étudiants) sur les inscriptions et les réussites entre 2010 et 2023. Soit les années universitaires 2010-2011 à 2023-2024. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2023.

L'exploitation de ces données sources a été réalisée le 17 décembre 2024 pour générer le jeu de données ouvertes.

Données produites

L'un des objectifs du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles dans leur plus grande variété, de façon à enrichir le dialogue d'orientation. Les données produites s'attachent à préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatifs sur les flux et les réussites.

Les données sources nécessitent d'accéder à des codifications auxilliaires pour être comprises. Nous avons conservé ces références externes dans les données produites sans les résoudre. Pour améliorer leur exploitation nous produisions une version orthotypographiée des noms utilisés dans ces référentiels externes.

Les codes UAI (unité administrative immatriculée) identifient de manière unique les établissements publics et privés d'enseignement et leurs composantes (ils succèdent aux codes RNE, répertoire national des établissements). La donnée de référence sur cette nomenclature est accessible sur le site du ministère de l'Éducation nationale et de la jeunesse via l'application de consultation et cartographie des établissements. https://www.education.gouv.fr/acce_public/search.php?mode=advanced

Les codes SISE des diplômes sont accessibles via un portail de la direction de l’Évaluation, de la prospective et de la performance du ministère de l'Éducation nationale et de la jeunesse appelé base centrale des Nomenclatures accessible à l'URL : https://bcn.depp.education.fr/. On peut y retrouver, par exemple, les codes SISE des diplômes https://bcn.depp.education.fr/bcn/workspace/viewTable/n/N_DIPLOME_SISE.

La méthode d'anonymisation que nous avons employée est une variante de la k-anonymisation pour k = 5. Cette méthode est détaillée plus bas.

Le format de sortie est le CSV, avec une virgule comme séparateur et des guillemets doubles (ascii) autour de chaque champ (y compris les champs numériques), en UTF-8.

Les données sources consistent en 31,6 millions d'inscriptions concernant 9,7 millions de parcours individuels (exactement 31 667 860 inscriptions et 9 708 377 individus), mais nous n'en retenons que 5,7 millions en ne conservant que ceux avec une inscription en 2018 ou après (5 669 974 exactement).

Fichier formations.csv

Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant⋅es d'après les données SISE restreintes à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.

formation: code construit en concaténant l'identifiant de composante (code UAI), l'identifiant de diplôme (code SISE) et, lorsque l'information existe, le degré d'étude (DEGETU des données SISE)
acaeta: académie de l'établissement tel que fourni dans les données SISE (code à deux chiffres)
compos: le code UAI de la composante (code établissement ou code d'une composante de l'établissement) sur 8 caractères ou bien, lorsque lt'établissement (privé) n'a pas donné son accord pour la publication de statistiques le concernant.
cursus-lmd: L, M ou D selon le type de cursus
cycle: 1, 2 ou 3 selon le cycle concerné
degetu: degré d'étude (le n du bac + n)
diplom: code SISE du diplôme. Le code commence par un chiffre entre 1 et 8 inclus. Formation LMD sur 3 caractères 210 (licence), 220 (master indifférencié), 221 (master professionnel), 222 (master recherche), 420 (doctorat), 230 (licence), 240 (licence pro), 250 (master). Les codes suivent soit la nomenclature nationale dans le cas de diplômes nationaux soit une nomenclature ad-hoc lorsqu'ils concernent des diplômes universitaires (donc créés par les établissements).
etabli: code UAI de l'établissement, il peut être différent du code composante
groupe: groupe disciplinaire selon la nomenclature SISE
sectdis: code à deux chiffres représentant le secteur disciplinaire du dîplome (52 valeurs possibles dans la nomenclature SISE).
typ-dipl: type de diplôme (codé sur deux caractères).

Précaution d'anonymisation : le drapeau OPPOS à 'O' des données sources, qui signifie une inscription dans un établissement privé n'ayant pas explicitement donné son consentement pour apparaître en tant qu'établissement identifié est ici respecté en masquant toute référence à l'établissement que ce soit pour l'UAI de sa composante d'enseignement ou pour l'UAI de l'établissement de rattachement. Ils sont tous deux remplacés par le code d'académie. Le code académie est sur deux chiffres, tandis que les UAI font 8 caractères il est donc facile de distinguer ces cas.

Fichier cohortes.csv

Une cohorte est caractérisée par un parcours d'études c'est à dire une séquence d'inscriptions principales dans des formations, une par année d'inscription et organisées selon les années croissantes. Contrairement à ce que laisse suggérer le nom la cohorte n'est pas un groupe d'individus ayant suivant simultanément le même parcours, le parcours d'étude peut ici avoir été effectué à des moments différents. Le nombre de personnes ayant suivi exactement ce parcours d'études est l'effectif de la cohorte. Les années d'inscriptions ne sont pas conservés dans cette donnée. Par contre, lorsque les inscriptions sautent une ou plusieurs années, le mot-clé "trou" remplace le code formation dans la séquence. Et des attributs annexes dans d'autres fichiers viennent enrichir la cohorte. On y retrouve notamment les années de première et de dernière inscription.

cohorteid: identifiant numérique de la cohorte
effectif: nombre de personnes dans la cohortes, ou zéro si ce nombre est inférieur à 5.
inscriptions: séquence des inscriptions dans des formations, représentée par la concaténation des codes formation au sens de la première colonne du fichier formations.csv joints par le caractère "+". en cas d'années sans données entre deux inscriptions, le texte "trou" remplace le code formation. En cas d'année avec des inscriptions dans plusieurs établissements ces inscriptions sont jointes par le caractère "&".

Précaution d'anonymisation. Nous appliquons une forme de k-anonymisation des effectifs (k = 5). En effet, nous avons pris la précaution de ne pas publier l'effectif des cohortes trop singulières c'est-à-dire composées de moins de 5 parcours individuels. Le parcours est alors conservé mais son effectif est remplacé par un zéro, pour conserver l'homogénéité du type numérique pour la colonne.

Cette anonymisation des cohortes nous fait perdre 2.4 millions (2 447 595) de parcours individuels trop spécifiques pour que leur effectif réel soit publié dans les données produites. Cela se traduit par 2 175 292 cohortes avec un effectif masqué par un zéro. Ces cohortes avec un effectif nul avaient donc en moyenne un effectif de 1.125 personnes.

Attributs des cohortes

Les personnes composant chaque cohorte étaient porteuses d'attributs :

âge de la personne au 31 décembre de l'année universitaire (septembre à août) de sa première inscription
année d'obtention du bac
type de bac obtenu (regroupement au sens SISE)
taux de complétude de la cohorte (voir plus bas)
sexe (champ SISE binaire)
type de bac obtenu (regroupement selon 8 valeurs)
année de début de la séquence d'inscriptions dans la cohorte (première année d'inscription visible dans les données SISE observées)
année de fin de la séquence d'inscriptions dans la cohorte
paire de spécialités de terminale au bac général (introduites en 2021)
effectif de chaque spécialité de terminale dans la cohorte

Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes aynat obtenues leurs bac en 2015.

De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :

si une cohorte se compose de 70 individus, 40 hommes et 30 femmes aucune information n'est effacée concernant le type d'attribut sexe.
si une cohorte se compose de 7 individus, 4 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
si une cohorte se compose de 7 individus, uniquement des hommes, l'attribut sexe est renseigné avec une seule entrée, homme, d'effectif égal à 7.
si une cohorte se compose de 43 individus, 40 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 4 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2015 et 2016. Les entrées 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro. L'entrée 2019 (par exemple) initialement absente reste absente.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 7 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2016 et 2017. Les entrées 2015 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac ne renseigne un effectif que pour l'entrée 2016. Les entrées 2015, 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 1 personne ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac n'est pas renseigné.

Fichier cohorte-bac.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
bac-rgrp: la valeur de l'attribut bac-rgrp selon la nomenclature SISE : 1 littéraire, 2 économique, 3 scientifique, 4 techno STT, 5 autres technos, 6 professionnel, 7 dispense, A bac général (2021), vide.

Fichier cohorte-age-premiereins.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
annee: la valeur de l'attribut âge au moment de la première inscription (c'est-à-dire au 31 décembre de l'année universitaire).

Fichier cohorte-anbac.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
anbac: la valeur de l'attribut année du bac.

Fichier cohorte-completude.csv

Informe sur la proportion de parcours dans la cohorte pour lesquels on observe au moins une année sans inscription après le parcours. C'est-à-dire qu'après la dernière année du parcours d'inscriptions, il y en a au moins une sans inscription.

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
completude: le taux de parcours dans la cohorte qui se sont achevés avant la dernière année d'observation ou zéro si ce taux a été anonymisé.

Fichier cohorte-derniereins.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
annee: la valeur de l'attribut dernière année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-premiereins.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
annee: la valeur de l'attribut première année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-sexe.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
sexe: la valeur de l'attribut sexe (selon la nomenclature SISE deux valeurs possibles : 1 hommme, 2 femme).

Fichier cohorte-spe-paire.csv

Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique. Elles sont codées sur sept caractères formant un libellé intelligible. La nomenclature est disponible dans la base centrale des nomenclatures.

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
bac-spe1: la première valeur de l'attribut paire de spécialités au bac
bac-spe2: la seconde valeur de l'attribut paire de spécialités au bac

Fichier cohorte-spe.csv

La même donnée mais pour chaque spécialité de terminale au bac général. Chaque individu est donc ici normalement représenté par zéro ou par deux unités dans l'effectif total selon s'il a obtenu un bac général de 2021 (2) ou plus récent ou un autre bac (0). La k-anonymisation brouille partiellement cette information.

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
bac-spe: la spécialité au bac

Parcours d'études dans l'enseignement supérieur France entière à partir de données SISE 2023-2024

université numérique Île-de-France

Fichiers ⁽¹¹⁾

Réutilisations et API ⁽¹⁾

Discussions ⁽⁰⁾

Ressources communautaires

Informations