Texte provenant des pdfs trouvés sur data.gouv.fr

Name: Texte provenant des pdfs trouvés sur data.gouv.fr
Creator: Pavel Soriano
License: https://www.etalab.gouv.fr/licence-ouverte-open-licence
Keywords: ocr,pdf,text-mining,texte

Description

Texte extrait des pdfs trouvés sur data.gouv.fr

Description

Ce dataset contient le texte extrait de 6602 fichiers qui ont l'extension pdf dans le catalogue de ressources de data.gouv.fr.

Le dataset contient que les pdfs de 20 Mb ou moins et qui sont toujours disponibles sur l'adresse URL indiquée.

L'extraction a été réalisée avec PDFBox via son wrapper Python python-pdfbox. Les PDFs qui sont des images (scans, cartes, etc)
sont détectés avec une heuristique simple : si après la conversion au format texte avec pdfbox, la taille du fichier produit est inférieure à 20 bytes on considère qu'il s'agit d'une image.
Dans ce cas, on procède à la OCRisation. Celle-ci est réalisé avec Tesseract via son wrapper Python pyocr.

Le résultat sont des fichiers txt provenant des pdfs triés par organisation (l'organisation qui a publiée la ressource). Il y a 175 organisations dans ce dataset, donc 175 dossiers.
Le nom de chaque fichier correspond au string {id-du-dataset}--{id-de-la-ressource}.txt.

Input

Catalogue de ressources data.gouv.fr.

Output

Fichiers texte de chaque ressource type pdf trouvée dans le catalogue qui a été converti avec succès et qui a satisfait les contraintes ci-dessus.
L'arborescence est la suivante :

.
├── ACTION_Nogent-sur-Marne
│ ├── 53ba55c4a3a729219b7beae2--0cf9f9cd-e398-4512-80de-5fd0e2d1cb0a.txt
│ ├── 53ba55c4a3a729219b7beae2--1ffcb2cb-2355-4426-b74a-946dadeba7f1.txt
│ ├── 53ba55c4a3a729219b7beae2--297a0466-daaa-47f4-972a-0d5bea2ab180.txt
│ ├── 53ba55c4a3a729219b7beae2--3ac0a881-181f-499e-8b3f-c2b0ddd528f7.txt
│ ├── 53ba55c4a3a729219b7beae2--3ca6bd8f-05a6-469a-a36b-afda5a7444a4.txt
|── ...
├── Aeroport_La_Rochelle-Ile_de_Re
├── Agence_de_services_et_de_paiement_ASP
├── Agence_du_Numerique
├── ...

Distribution des textes [au 20 mai 2020]

Le top 10 d'organisations avec le nombre le plus grand des documents est:

[('Les_Lilas', 1294),
 ('Ville_de_Pirae', 1099),
 ('Region_Hauts-de-France', 592),
 ('Ressourcerie_datalocale', 297),
 ('NA', 268),
 ('CORBION', 244),
 ('Education_Nationale', 189),
 ('Incubateur_de_Services_Numeriques', 157),
 ('Ministere_des_Solidarites_et_de_la_Sante', 148),
 ('Communaute_dAgglomeration_Plaine_Vallee', 142)]

Et leur aperçu en 2D est (HashFeatures+TruncatedSVD+t-SNE) :
Plot t-SNE des textes DGF

Code

Les scripts Python utilisés pour faire cette extraction sont ici.

Remarques

Dû à la qualité des pdfs d'origine (scans de basse résolution, pdfs non alignés, ...) et à la performance des méthodes de transformation pdf-->txt, les résultats peuvent être très bruités.

Auteur

Pavel Soriano

Ce jeu de données a été publié à l'initiative et sous la responsabilité de Pavel Soriano
Publié le 20 mai 2020 et mis à jour le 20 mai 2020

Dernière mise à jour

20 mai 2020

Licence

Licence Ouverte / Open Licence version 2.0

Qualité des métadonnées

66.66666666666666/100

Fréquence de mise à jour non respectée

Couverture temporelle non renseignée

Couverture spatiale non renseignée

1 Fichier principal

data-gouv-pdf-txt.tgz

Mis à jour le 20 mai 2020

tgz (71.0Mo)

146 téléchargements

URL: https://static.data.gouv.fr/resources/texte-provenant-des-pdfs-trouves-sur-data-gouv-fr/20200520-003700/data-gouv-pdf-txt.tgz
URL stable: https://www.data.gouv.fr/fr/datasets/r/70879481-c1ee-4a6d-9b46-597117ae4497
sha1: 8a08ce3abbbd2c3a22914176c98a559eb09f349b
Type MIME: application/x-tar

Créée le: 20 mai 2020
Modifiée le: 20 mai 2020

Taille: 71.0Mo

Données txt compressés organisés par organisation. Le nom de chaque fichier txt est composé par l'id du dataset de provenance et l'id de la ressource même : {id-dataset}--{id-ressource}.txt

Il n'y a pas encore de réutilisation pour ce jeu de données.

Publiez une réutilisation Qu'est-ce qu'une réutilisation ?

Il n'y a pas encore de discussion pour ce jeu de données.

Ces ressources sont publiées par la communauté et ne sont pas sous la responsabilité du producteur des données.

analyse-syntaxique-texte-dgf.tgz

Mis à jour le 20 mai 2020

tgz (749.8Mo)

87 téléchargements

URL: https://static.data.gouv.fr/resources/texte-provenant-des-pdfs-trouves-sur-data-gouv-fr/20200520-091703/analyse-syntaxique-texte-dgf.tgz
URL stable: https://www.data.gouv.fr/fr/datasets/r/19755a30-3cb5-408d-9603-71fbbe284901
sha1: 81a2b52d83373d4d00961f7c25ef4e623730168b
Type MIME: application/x-tar

Créée le: 20 mai 2020
Modifiée le: 20 mai 2020

Taille: 749.8Mo

Analyse syntaxique du texte extrait des pdfs trouvés sur data.gouv.fr

Description

Ce dataset contient un analyse syntaxique pour les textes du dataset Texte extrait des pdfs trouvés sur data.gouv.fr
Au total, il s'agit de 6526 fichiers JSON compatibles avec le format CONLL-U.

L'analyse a été réalisée avec la librairie NLP en Python stanza.
Spécifiquement, avec les modèles gsd (pour la
tokenisation, la lemmatisation, l'extraction de dépendances, et les infos miscellanées) et WikiNER pour la
reconnaissance d'entités nommées.

IMPORTANT: Afin d'accelerer les analyses, seulement les premiers 350 Kb de chaque fichier sont lus.

Le résultat sont de fichiers json provenant des txt triés par organisation (l'organisation qui a publié la ressource).
Le nom de chaque fichier correspond au string {id-du-dataset}--{id-de-la-ressource}.json.

Input

Dataset Texte extrait des pdfs trouvés sur data.gouv.fr.

Output

Fichiers JSON pour chaque fichier type txt trouvée dans le dataset qui a été analysé avec succès.
Chaque fichier contient une liste de phrases. Chaque phrase corresponde à une liste de mots. Chaque mot contient les informations suivantes :

id : son identifiant dans la phrase ;
texte : le texte brut du mot ;
lemma : le lemme du mot ;
head : la tête de la relation de dépendance ;
deprel : le type de la relation de dépendance (Universal Dependencies);
misc : des autres informations sur la nature du mot, tels que sa position de début/fin dans la phrase ;
ner : entité nommée trouvé par le model (LOC: endroit, PER: personne, ORG: organisation, MISC: autre)

Bref aperçu d'un fichier :

[
    [
        {
            "id": "1",
            "text": "ACTES",
            "lemma": "ACTES",
            "upos": "NOUN",
            "feats": "Gender=Masc|Number=Plur",
            "head": 0,
            "deprel": "root",
            "misc": "start_char=47|end_char=52",
            "ner": "B-ORG"
        },
        {
            "id": "2",
            "text": "ADMINISTRATIFS",
            "lemma": "administratifs",
            "upos": "ADJ",
            "feats": "Gender=Masc|Number=Plur",
            "head": 1,
            "deprel": "amod",
            "misc": "start_char=53|end_char=67",
            "ner": "E-ORG"
        },
        ...
    ],
    ...
]

Code

Les scripts Python utilisés pour faire cette extraction sont ici.

Remarques

Dû à la qualité des pdfs d'origine, à la performance des méthodes de transformation pdf-->txt,
et à la qualité des modèles d'analyse syntaxique/reconnaissance d'entités nommées, les résultats peuvent être très bruités.

Informations

Mots-clés

Licence

Licence Ouverte / Open Licence version 2.0

ID

5ec45f516a58eec727e79af7

Temporalité

Création

20 mai 2020

Fréquence

Deux fois par mois

Dernière mise à jour

20 mai 2020

Actions

Intégrer sur votre site

<div data-udata-dataset="5ec45f516a58eec727e79af7"></div><script data-udata="https://www.data.gouv.fr/" src="https://static.data.gouv.fr/static/oembed.js" async defer></script>

Statistiques des 12 derniers mois

Télécharger les statistiques de trafic au format CSV

Visites

2,4k

165 en avr. 2024

Téléchargements

5 en avr. 2024

Texte provenant des pdfs trouvés sur data.gouv.fr

Description

Texte extrait des pdfs trouvés sur data.gouv.fr

Description

Input

Output

Distribution des textes [au 20 mai 2020]

Code

Remarques

Auteur

Dernière mise à jour

Licence

Qualité des métadonnées :

Qualité des métadonnées

Informations

Mots-clés

Licence

ID

Temporalité

Création

Fréquence

Dernière mise à jour

Actions

Intégrer sur votre site

Statistiques des 12 derniers mois

Visites

Téléchargements

Réutilisations de ce jeu de données

Favoris