Thèses soutenues en France depuis 1985

Description

Ce jeu de données contient les métadonnées des thèses de doctorat françaises soutenues depuis 1985.

Les données sont issues de theses.fr, le moteur de recherche des thèses de doctorat françaises. Il recense l’ensemble des thèses de doctorat soutenues en France depuis 1985. Les données sont produites par les établissements habilités à délivrer le doctorat et sont placées sous leur responsabilité.

Seules les thèses de doctorat françaises soutenues depuis 1985, telles que définies par l’arrêté du 25 septembre 1985, l’arrêté du 7 août 2006 et l’arrêté du 25 mai 2016 (mis à jour par l'arrêté du 26 août 2022), font l’objet d’un signalement sur theses.fr (et sont présentes dans ce jeu de données).¹ Ce signalement constitue une obligation réglementaire.

Ce jeu de données est disponible en trois formats : CSV, json et ndjson. Il est accompagné d'un guide de réutilisation.

Exposition et réutilisation des données personnelles

La mise à disposition de données relatives aux personnes se fait en conformité avec l’article D.312-1-3, paragraphe 4, du Code des relations entre le public et l’administration et l’article 17, paragraphe 3, du Règlement Général sur la Protection des Données. Les données publiées sont toutes des données publiques. Elles sont réduites au strict nécessaire, conformément à l’article 89, paragraphe 1, du Règlement Général sur la Protection des Données : noms et prénoms des personnes liées aux thèses de doctorat (auteurs, directeurs de thèse, membres du jury), liste des thèses liées au nom desdites personnes.

Les personnes concernées disposent d'un droit d'accès et de rectification des données, qu’elles peuvent exercer via le guichet d'assistance de l’Abes. Le droit à l’effacement ne peut s’exercer concernant le signalement des thèses de doctorat soutenues, conformément aux exceptions prévues par l’article 17, paragraphes 3.b et 3.d, du Règlement Général sur la Protection des Données.


¹ Les HDR, les thèses d’exercice et les mémoires ne font pas partie du périmètre de theses.fr.

Dernière mise à jour
8 janvier 2024

Vues

0

Téléchargements

0

  • Fréquence de mise à jour non respectée

Vous souhaitez trouver une thèse sur un sujet spécifique ?

L'outil scanR vous permet de parcourir les publications de recherche et d'y accéder (si l'accès est ouvert).

Consulter scanR
Votre question porte sur autre chose que ce jeu de données ? Visiter notre forum

6 discussions dont 1 clotûrée

Version mise à jour et corrigée du dataset

Posté le 13 avril 2026
Bonjour, Merci pour ce dataset qui nous a beaucoup aidé dans le cadre de nos recherches. Cependant, nous avons remarqué plusieurs problèmes (IdRefs obsolètes ou malformés pour certaines personnes, certaines données absentes de la version CSV, etc.) qui nous ont amenés à produire une version modifiée du dataset. Cette version corrige les problèmes que nous avons identifiés en plus d'ajouter les thèses manquantes de 2022 à 2025 et d'ajouter quelques features (identifiants TEL et SUDOC des thèses, données issues d'IdRef, informations dérivées des données existantes, etc.) Nous avons mis à disposition notre version du dataset (https://doi.org/10.5281/zenodo.19453190) et un data paper (https://doi.org/10.48550/arXiv.2604.08619) décrivant les modifications que nous avons effectué. Votre dataset est cité comme une des sources du nôtre dans le data paper et les métadonnées de Zenodo, mais si vous souhaitez que nous référencions l'ABES ou votre dataset d'autres manières, n'hésitez pas à nous contacter.

Date d'actualisation du fichier de thèses en 2026 et thèses débutées pas encore soutenues

Posté le 2 février 2026
Bonjour. Merci pour votre jeu de données mais comme indiqué dans le titre, j'aimerais connaître à quelle date les données de thèses inclueront celles soutenues en 2024 et 2025 (deux ans sans actualisation là) et pourquoi vous n'avez pas extrait de la base theses.fr les thèses en cours en laissant le champ date de soutenance à vide ce qui enlève nombre d'informations très intéressantes sur les orientations de travaux les plus récents. Merci pour votre réponse. Très cordialement
Posté le 3 mars 2026
Producteur
Bonjour Nous vous remercions de l'intérêt pour ce jeu de données et nous vous prions d'excuser ce retard dans la mise à jour du jeu de données à disposition sur data.gouv. Nous sommes bien conscient de son l'obsolescence. Malheureusement, plusieurs gros projets concurrents au sein de l'Agence ainsi que des mises à niveau techniques préalables, nous mettent dans l'impossibilité de vous donner une date de mise à jour. Ainsi que vous le demandez, il est bien prévu, lors de l'automatisation de la production de ce jeu de donné, avec une périodicité alors garantie, de mettre à disposition un jeu complémentaire des projets de thèses non encore soutenues. En attendant, vous disposez de 2 alternative exploitant les données de la base theses.fr : https://theses.fr/?domaine=theses soit de notre API, directement branchée sur la base de theses.fr qui vous permettra de compléter le jeu de données sur data.gouv https://documentation.abes.fr/aidethesesfr/index.html#PrincipeAPI - en exportant les thèses soutenues depuis le 1re janvier 2024 : status:(soutenue) , dateSoutenance(2024-01-01 TO 2025-12-31) - en exportant les thèses en préparation (status:(enCours)) soit, si vous souhaitez un résultat tabulé de la fonction d'export a partir des résultats d'une recherche dans l'interface de theses.fr https://documentation.abes.fr/aidethesesfr/index.html#exportsdonnees - en sélectionnant "thèses soutenues Explorer" depuis la page d'accueil, puis en jouant, dans colonne de gauche, sur la facette "Date" qui est l'année de soutenance - en sélectionnant "thèses en préparation Explorer" depuis la page d'accueil Le maximim de thèses exportable simultanément est de 10 000 : il vous faudra donc faire des sous ensembles Espérant que ces solutions alternatives pourront répondre à votre besoin dans l'immédiat Brigitte Michel pour L'Abes

Ecart données par rapport à l'interface web de theses.fr

Posté le 3 septembre 2025
Bonjour, en comparant le nombre de thèses dans le dump par rapport au chiffre du nombre de thèses soutenues sur l'interface web j'observe un écart entre ces deux sources : on a 445 830 thèses soutenues dans le dump contre 457 706 thèses soutenues jusqu'en 2023 sur l'interface web. Je me demandais s'il s'agissait de doublons présents sur les données web qui avaient été corrigées dans le dump ou simplement d'une erreur (ou toute autre raison)? Par ailleurs, le nom et la description du dump indiquent que les thèses enregistrées sont censé remonter au plus tard à 1985 or on retrouve des date de soutenance allant jusqu'à 1965. Du coup, je me demande également s'il s'agit d'une erreur ou autre? En vous remerciant d'avance, Bien à vous
Mis à jour le 8 septembre 2025
Bonjour, nous vous remercions grandement de votre signalement et de l'intérêt que vous portez aux données de theses.fr. Le delta entre les deux sources s'explique par la durée de traitement des thèses par les établissements de soutenance : le jeu de données exposé sur data.gouv a été publié le 08 janvier 2024 et ne contient pas les thèses déjà soutenues à cette date, mais dont le signalement et l'archivage n'étaient pas encore finalisés. Effectivement, quelques scories (thèses soutenues avant 1985) étaient encore présentes au moment de ce premier dump. Il s'agissait d'un "reste" du chargement initial des données dans theses.fr, avant que la limite de date ne soit intégrée. Un nettoyage a été effectué depuis et ces thèses ne sont plus présentes sur le site. Par ailleurs, une mise à jour du dump est également prévue pour le début de l'année 2026, sans que nous ne puissions être plus précis pour le moment. Bien cordialement,
Posté le 8 septembre 2025
Bonjour, merci pour votre réponse très rapide et claire. Je suis également content d'apprendre qu'un nouveau dump avec les données à jour est prévue pour bientôt. Bien à vous

Connaître les thèses en Sciences de gestion soutenues en 2024

Posté le 8 novembre 2024
Bonjour, J'aimerais pouvoir connaître les thèses soutenues en Sciences de gestion en 2024, comment puis-je faire ? Depuis la mise à jour du site, j'ai l'impression que le filtre ne me permet pas de toute les trouver... Merci par avance pour votre réponse. Bien à vous,
Posté le 5 décembre 2024
Bonjour, Je vous prie de bien vouloir nous excuser pour les délais de réponse. La base de données de theses.fr n’a pas été modifiée. De même, les filtres sur les disciplines ou les domaines thématiques sont toujours disponibles sur la nouvelle version du site et récupèrent toujours les données au même endroit. Il n’y a donc pas de différences à ce niveau là. En revanche, le moteur de recherche est désormais plus restrictif car il ne cherche plus les informations dans le plein texte des thèses : les résultats sont plus pertinents. Nous vous invitons donc : soit à utiliser les filtres (en combinant le filtre « domaines thématiques » et le filtre « disciplines » => en cherchant "gestion"), soit à utiliser la recherche avancée. Bien cordialement,

Champs date_soutenance avec des dates dupliquées

Posté le 29 février 2024
Bonjour, juste pour signaler que certains champs 'date_soutenance' ont un format incorrect du type "2002-01-013031-01-01" ou la première partie du champs semble être la date correcte. C'est au moins le case dans la version csv des données, peut-être aussi dans les autres mais je n'ai pas testé. Cordialement Vincent

Raisons du manque de certaines informations (résumé, jury, etc)

Posté le 10 octobre 2022
Discussion close par Data Abes le 14 février 2023