Texte provenant des pdfs trouvés sur data.gouv.fr

Name: Texte provenant des pdfs trouvés sur data.gouv.fr
Creator: Pavel Soriano
License: https://www.etalab.gouv.fr/licence-ouverte-open-licence
Keywords: ocr,pdf,text-mining,texte

Description

Texte extrait des pdfs trouvés sur data.gouv.fr

Description

Ce dataset contient le texte extrait de 6602 fichiers qui ont l'extension pdf dans le catalogue de ressources de data.gouv.fr.

Le dataset contient que les pdfs de 20 Mb ou moins et qui sont toujours disponibles sur l'adresse URL indiquée.

L'extraction a été réalisée avec PDFBox via son wrapper Python python-pdfbox. Les PDFs qui sont des images (scans, cartes, etc)
sont détectés avec une heuristique simple : si après la conversion au format texte avec pdfbox, la taille du fichier produit est inférieure à 20 bytes on considère qu'il s'agit d'une image.
Dans ce cas, on procède à la OCRisation. Celle-ci est réalisé avec Tesseract via son wrapper Python pyocr.

Le résultat sont des fichiers txt provenant des pdfs triés par organisation (l'organisation qui a publiée la ressource). Il y a 175 organisations dans ce dataset, donc 175 dossiers.
Le nom de chaque fichier correspond au string {id-du-dataset}--{id-de-la-ressource}.txt.

Input

Catalogue de ressources data.gouv.fr.

Output

Fichiers texte de chaque ressource type pdf trouvée dans le catalogue qui a été converti avec succès et qui a satisfait les contraintes ci-dessus.
L'arborescence est la suivante :

.
├── ACTION_Nogent-sur-Marne
│ ├── 53ba55c4a3a729219b7beae2--0cf9f9cd-e398-4512-80de-5fd0e2d1cb0a.txt
│ ├── 53ba55c4a3a729219b7beae2--1ffcb2cb-2355-4426-b74a-946dadeba7f1.txt
│ ├── 53ba55c4a3a729219b7beae2--297a0466-daaa-47f4-972a-0d5bea2ab180.txt
│ ├── 53ba55c4a3a729219b7beae2--3ac0a881-181f-499e-8b3f-c2b0ddd528f7.txt
│ ├── 53ba55c4a3a729219b7beae2--3ca6bd8f-05a6-469a-a36b-afda5a7444a4.txt
|── ...
├── Aeroport_La_Rochelle-Ile_de_Re
├── Agence_de_services_et_de_paiement_ASP
├── Agence_du_Numerique
├── ...

Distribution des textes [au 20 mai 2020]

Le top 10 d'organisations avec le nombre le plus grand des documents est:

[('Les_Lilas', 1294),
 ('Ville_de_Pirae', 1099),
 ('Region_Hauts-de-France', 592),
 ('Ressourcerie_datalocale', 297),
 ('NA', 268),
 ('CORBION', 244),
 ('Education_Nationale', 189),
 ('Incubateur_de_Services_Numeriques', 157),
 ('Ministere_des_Solidarites_et_de_la_Sante', 148),
 ('Communaute_dAgglomeration_Plaine_Vallee', 142)]

Et leur aperçu en 2D est (HashFeatures+TruncatedSVD+t-SNE) :
Plot t-SNE des textes DGF

Code

Les scripts Python utilisés pour faire cette extraction sont ici.

Remarques

Dû à la qualité des pdfs d'origine (scans de basse résolution, pdfs non alignés, ...) et à la performance des méthodes de transformation pdf-->txt, les résultats peuvent être très bruités.

Author

Pavel Soriano

This dataset has been published on the initiative and under the responsibility of Pavel Soriano.

Latest update

May 20, 2020

License

Licence Ouverte / Open Licence version 2.0

Metadata quality

66.66666666666666/100

Update frequency not followed

Temporal coverage not set

Spatial coverage not set

1 Main file

data-gouv-pdf-txt.tgz

Updated on May 20, 2020

tgz (71.0MB)

175 downloads

URL: https://static.data.gouv.fr/resources/texte-provenant-des-pdfs-trouves-sur-data-gouv-fr/20200520-003700/data-gouv-pdf-txt.tgz
Permalink: https://www.data.gouv.fr/en/datasets/r/70879481-c1ee-4a6d-9b46-597117ae4497
sha1: 8a08ce3abbbd2c3a22914176c98a559eb09f349b
MIME Type: application/x-tar

Created on: May 20, 2020
Modified on: May 20, 2020

Size: 71.0MB

Données txt compressés organisés par organisation. Le nom de chaque fichier txt est composé par l'id du dataset de provenance et l'id de la ressource même : {id-dataset}--{id-ressource}.txt

There are no reuses for this dataset yet.

Publish a reuse What's a reuse ?

There are no discussions for this dataset yet.

These resources are published by the community and the producer isn't responsible for them.

analyse-syntaxique-texte-dgf.tgz

Updated on May 20, 2020

tgz (749.8MB)

126 downloads

URL: https://static.data.gouv.fr/resources/texte-provenant-des-pdfs-trouves-sur-data-gouv-fr/20200520-091703/analyse-syntaxique-texte-dgf.tgz
Permalink: https://www.data.gouv.fr/en/datasets/r/19755a30-3cb5-408d-9603-71fbbe284901
sha1: 81a2b52d83373d4d00961f7c25ef4e623730168b
MIME Type: application/x-tar

Created on: May 20, 2020
Modified on: May 20, 2020

Size: 749.8MB

Analyse syntaxique du texte extrait des pdfs trouvés sur data.gouv.fr

Description

Ce dataset contient un analyse syntaxique pour les textes du dataset Texte extrait des pdfs trouvés sur data.gouv.fr
Au total, il s'agit de 6526 fichiers JSON compatibles avec le format CONLL-U.

L'analyse a été réalisée avec la librairie NLP en Python stanza.
Spécifiquement, avec les modèles gsd (pour la
tokenisation, la lemmatisation, l'extraction de dépendances, et les infos miscellanées) et WikiNER pour la
reconnaissance d'entités nommées.

IMPORTANT: Afin d'accelerer les analyses, seulement les premiers 350 Kb de chaque fichier sont lus.

Le résultat sont de fichiers json provenant des txt triés par organisation (l'organisation qui a publié la ressource).
Le nom de chaque fichier correspond au string {id-du-dataset}--{id-de-la-ressource}.json.

Input

Dataset Texte extrait des pdfs trouvés sur data.gouv.fr.

Output

Fichiers JSON pour chaque fichier type txt trouvée dans le dataset qui a été analysé avec succès.
Chaque fichier contient une liste de phrases. Chaque phrase corresponde à une liste de mots. Chaque mot contient les informations suivantes :

id : son identifiant dans la phrase ;
texte : le texte brut du mot ;
lemma : le lemme du mot ;
head : la tête de la relation de dépendance ;
deprel : le type de la relation de dépendance (Universal Dependencies);
misc : des autres informations sur la nature du mot, tels que sa position de début/fin dans la phrase ;
ner : entité nommée trouvé par le model (LOC: endroit, PER: personne, ORG: organisation, MISC: autre)

Bref aperçu d'un fichier :

[
    [
        {
            "id": "1",
            "text": "ACTES",
            "lemma": "ACTES",
            "upos": "NOUN",
            "feats": "Gender=Masc|Number=Plur",
            "head": 0,
            "deprel": "root",
            "misc": "start_char=47|end_char=52",
            "ner": "B-ORG"
        },
        {
            "id": "2",
            "text": "ADMINISTRATIFS",
            "lemma": "administratifs",
            "upos": "ADJ",
            "feats": "Gender=Masc|Number=Plur",
            "head": 1,
            "deprel": "amod",
            "misc": "start_char=53|end_char=67",
            "ner": "E-ORG"
        },
        ...
    ],
    ...
]

Code

Les scripts Python utilisés pour faire cette extraction sont ici.

Remarques

Dû à la qualité des pdfs d'origine, à la performance des méthodes de transformation pdf-->txt,
et à la qualité des modèles d'analyse syntaxique/reconnaissance d'entités nommées, les résultats peuvent être très bruités.

Information

License

Licence Ouverte / Open Licence version 2.0

ID

5ec45f516a58eec727e79af7

Temporality

Creation

May 20, 2020

Frequency

Semimonthly

Latest update

May 20, 2020

Actions

Embed

<div data-udata-dataset="5ec45f516a58eec727e79af7"></div><script data-udata="https://www.data.gouv.fr/" src="https://static.data.gouv.fr/static/oembed.js" async defer></script>

Statistics for the year

Download traffic metrics as CSV

Views

2.6k

147 in Sep 2024

Downloads

10 in Sep 2024

Texte provenant des pdfs trouvés sur data.gouv.fr

Description

Texte extrait des pdfs trouvés sur data.gouv.fr

Description

Input

Output

Distribution des textes [au 20 mai 2020]

Code

Remarques

Author

Latest update

License

Metadata quality:

Metadata quality

Information

Tags

License

ID

Temporality

Creation

Frequency

Latest update

Actions

Embed

Statistics for the year

Views

Downloads

Reuses of this dataset

Followers