LEGI: Codes, lois et règlements consolidés vectorisés

Description

Ce jeu de données contient une version traitée, structurée et vectorisée de la législation et réglementation nationale française consolidée, publiée sur data.gouv.fr et disponibles dans leur version brute sur le portail open data de la DILA.

Le corpus regroupe l’ensemble des textes juridiques nationaux consolidés (lois, codes, décrets, arrêtés...) en vigueur ou bientôt abrogés.

Les données sont encodées pour permettre la recherche sémantique et leur intégration dans des projets d’intelligence artificielle (RAG, chatbots, etc.).

Contenu :
Chaque entrée du jeu de données représente un article ou une partie de texte consolidé, avec les informations suivantes :

  • Identifiants unique de morceau de donnée et du document source,
  • Catégorie (loi, décret, arrêté, etc.) et autorité émettrice (ministère),
  • Statut de l'article (en vigueur ou bientôt abrogé)
  • Titre court et titre complet du texte juridique,
  • Date de début et de fin de validité de l’article,
  • Numéro d'article et sous-sections éventuelles,
  • Notes complémentaires éventuelles (notas),
  • Texte consolidé de l’article (ou un de ses extraits),
  • Texte formaté pour l’analyse sémantique,
  • Vecteur d’embedding (encodage sémantique du texte).

Format : Parquet (.parquet)

Langue : français

Accès au jeu de données ainsi qu'à sa description complète sur la plateforme Hugging Face :
👉 Consulter le dataset sur Hugging Face

Licence :
Licence Ouverte / Etalab 2.0

Source des données brutes :

Dernière mise à jour
6 décembre 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(89 %)
  • Couverture temporelle non renseignée

1 fichier principal

Mis à jour aujourd’hui parquet (177,3 Ko)60
Documentation

Mis à jour le 4 décembre 2025 html (573,6 Ko)8