Catalogue des jeux de données de data.gouv.fr vectorisé

Description

Ce jeu de données contient une version vectorisée du catalogue des jeux de données publiés sur data.gouv.fr.
Uniquement les jeux de données ayant une description d'au minimum 100 caractères sont répertoriés dans ce jeu de données. Ceci afin de minimiser le bruit de jeux de données éventuellement incomplets.


Les contenus ont été retraités et vectorisés pour permettre la recherche sémantique et l’intégration dans des projets basés d’intelligence artificielle (RAG, assistants, moteur de recherche etc.).

Contenu :
Chaque entrée du jeu de données représente un jeu de données publié sur data.gouv.fr, avec les informations suivantes :

  • Titre du jeu de donnée,
  • Organisation,
  • Description,
  • URL de la page data.gouv.fr du jeu de données
  • Métadonnées (métriques, licence, fréquence de mise à jour, etc.),
  • Vecteur d’embedding (encodage sémantique du texte).

Format : Parquet (.parquet)
Langue : français

Accès au jeu de données ainsi qu'à sa description complète sur la plateforme Hugging Face :
👉 Consulter le dataset sur Hugging Face

Licence :
Licence Ouverte / Etalab 2.0

Source des données brutes :

Dernière mise à jour
6 décembre 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(78 %)
  • Couverture temporelle non renseignée

  • Couverture spatiale non renseignée

1 fichier principal

Mis à jour aujourd’hui parquet (103,7 Ko)21
Documentation

Mis à jour le 3 décembre 2025 html (1,2 Mo)6