Collectes du web électoral par la BnF

Description

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement le web politique français. Depuis 2002, et lors de chaque scrutin, sont archivés sites de l’État et des collectivités territoriales, sites de partis et de candidats en campagne, blogs, presse en ligne, activité publique sur les réseaux sociaux. Il s’agit de documenter le développement et la diversité de la vie politique et du débat citoyen en ligne. Ce travail est mené avec un nombre croissant de bibliothèques de dépôt légal en région. Les sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF. Leur liste vous est ici proposée par scrutin. Vous y trouverez les URL des sites, leur description (partis rattachés, niveau géographique, typologie utilisée pour la sélection, mots-clés attachés), les paramètres techniques de collecte (profondeur, fréquence de passage des robots, historique de l'URL collectée). La BnF met ces données librement à votre disposition à condition d’en mentionner la source.

La BnF procède aussi à des collectes thématiques du web.

Dernière mise à jour
17 avril 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(100 %)
Votre question porte sur autre chose que ce jeu de données ? Visiter notre forum

2 discussions

Elections au Parlement européen 2019

Posté le 25 octobre 2019
Bonjour, à quelle date seront disponibles les données du web electoral pour 2019. Par ailleurs, en attendant leur publication sur data.gouv.fr, les sites archivés sont-ils directement consultables à la BNF?
Posté le 29 octobre 2019
Bonjour, La mise en ligne des données sur les élections 2019 est prévu pour la fin de l'année. Les sites archivés sont déjà consultables dans les archives de la BnF. Voici comment y parvenir : https://www.bnf.fr/fr/archives-de-linternet Cordialement.

Données mal encodées

Posté le 18 octobre 2019
En voulant utiliser ce jeu de données, j'ai eu des problèmes au niveau de l'encodage des fichiers.
Posté le 18 octobre 2019
Au passage, j'ai aussi remarqué des problèmes de qualité. Par exemple, le parti LREM peut prendre les valeurs "LREM" ou "EM!" et parfois avec des espaces avant et/ou après.
Posté le 29 octobre 2019
Bonjour, Concernant la question sur l'encodage c'est du Windows ANSI. Concernant l'indexation, elle est libre et no régie par un référentiel. Dans l'exemple que vous donnez, ce n'est pas incohérent puisque "LREM' a pris ce ce nom après l'élection présidentielle et qu'auparavant, il s'agissait bien de "EM!". Dans la mesure où ces données sont issues de l'application qui sert à lancer les collectes des sites des partis ou personnes candidates aux élections, il est logique que l'indexation reflète les évolutions dans les noms. Cordialement.