DOLE : les dossiers législatifs vectorisés

Description

Ce jeu de données contient une version traitée, structurée et vectorisée des Dossiers législatifs publiés sur data.gouv.fr et disponibles dans leur version brute sur le portail open data de la DILA.

Le corpus comprend l’ensemble des lois promulguées depuis la XIIᵉ législature (juin 2002), les ordonnances, ainsi que les projets et propositions de loi en préparation.
Les données sont encodées pour permettre la recherche sémantique et l’intégration dans des projets d’intelligence artificielle (RAG, chatbots, etc.).

Contenu :
Chaque entrée du jeu de données représente un article, un bloc de contenu de dossier ou d'exposé des motifs avec les informations suivantes :

  • Identifiants unique de morceau de donnée et du document source,
  • Catégorie/type de dossier,
  • Type de contenu,
  • Titre du sujet et son numéro officiel,
  • Date de création ou de publication,
  • Données associées à l’article : numéro, titre, synthèse éventuelle,
  • Contenu textuel extrait et structuré par blocs du contenu concerné,
  • Texte formaté pour l’analyse sémantique,
  • Vecteur d’embedding (encodage sémantique du texte).

Format : Parquet (.parquet)

Langue : français

Accès au jeu de données ainsi qu'à sa description complète sur la plateforme Hugging Face :
👉 Consulter le dataset sur Hugging Face

Licence :
Licence Ouverte / Etalab 2.0

Source des données brutes :

Dernière mise à jour
20 janvier 2026

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(89 %)
  • Couverture temporelle non renseignée

Votre question porte sur autre chose que ce jeu de données ? Visiter notre forum

0 discussions

Il n'y a pas encore de discussion