Fiches pratiques Service-Public.fr vectorisées

Description

Ce jeu de données contient une version traitée, structurée et vectorisée des fiches pratiques publiées sur le site Service-Public.fr, le site officiel d'information et de démarches administratives.
Les contenus ont été extraits, nettoyés, structurés par sections, puis découpés (chunkés) et vectorisés pour permettre la recherche sémantique et l’intégration dans des projets basés d’intelligence artificielle (RAG, assistants, etc.).

Contenu :
Chaque entrée du jeu de données représente un fragment de texte cohérent issu d’une fiche, avec les informations suivantes :

  • Titre de l’article,
  • Introduction,
  • Thème et public visé (particuliers ou professionnels),
  • Texte extrait et structuré,
  • Services en ligne associés et questions liées,
  • Métadonnées (identifiant, URL, etc.),
  • Vecteur d’embedding (encodage sémantique du texte).

Format : Parquet (.parquet)
Langue : français

Accès au jeu de données ainsi qu'à sa description complète sur la plateforme Hugging Face :
👉 Consulter le dataset sur Hugging Face

Licence :
Licence Ouverte / Etalab 2.0

Source des données brutes :

Dernière mise à jour
27 mai 2025
Qualité des métadonnées:
Bon(89 %)
  • Couverture temporelle non renseignée

1 Fichier principal

Mis à jour le 26 mai 2025 parquet 19
1 Documentation

Mis à jour le 21 juin 2025 html 10