Semantic Tree Inference on Text Corpa using a Nested Density Approach together with Large Language Model Embeddings

0

0

Description

Cette réutilisation présente un outil de classification sémantique automatique basé sur les embeddings de grands modèles de langage (LLM). Il permet d’inférer un arbre hiérarchique des thématiques, offrant une véritable généalogie des thèmes de recherche, sans catégories prédéfinies.

La méthode repose sur un clustering par densité imbriquée : des groupes de textes très proches sémantiquement sont d’abord identifiés, puis progressivement agrégés en ensembles plus larges, jusqu’à former une structure arborescente complète. Cette approche révèle naturellement les niveaux de spécialisation et les liens entre domaines scientifiques.

La pertinence de l’outil est démontrée par sa réutilisation du jeu de données « Thèses soutenues en France depuis 1985 » (data.gouv.fr), où il permet de structurer automatiquement les résumés de thèses en branches et sous-branches de recherche, mettant en évidence l’organisation et l’évolution des thématiques scientifiques.

Cette réutilisation illustre le potentiel des données ouvertes pour l’exploration, la cartographie et l’analyse dynamique des champs de recherche.

Thématique
Éducation et recherche
Type
Papier
Mots clés
cartographie-des-thematiquesclassification-semantiqueembeddings-de-textefouille-de-textesgenealogie-des-themes-de-recherchegrands-modeles-de-langagellmscientometriestructuration-des-connaissancestraitement-automatique-du-langage-naturel
Dernière mise à jour
16 janvier 2026
Date de création
16 janvier 2026

Vues

1 jeu de données associé

Thèses soutenues en France depuis 1985

Métadonnées :

Bon(89 %)

280K

32K

6

2

Il n'y a pas encore d'API associées