Collectes thématiques du web par la BnF

Description

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement un échantillon du web français, constitué à partir de collectes larges (annuelles et non sélectives) et de collectes ciblées. Ces dernières regroupent deux types de collectes :

  • les collectes « projets », souvent menées en coopération avec des partenaires (bibliothèques, centres de recherche, associations), et caractérisées par leur sensibilité plus forte à l’actualité ainsi que par leur transversalité ou spécificité thématique ;
  • les collectes « courantes », pour les sites de référence sur un champ disciplinaire donné, réalisées depuis 2011 à des fréquences variables (de « une fois par semaine » à « une fois par an »). En partenariat avec la BnF, cinq bibliothèques (Bibliothèque nationale et universitaire de Strasbourg, Médiathèque centrale d'Agglomération Emile Zola de Montpellier, Bibliothèque municipale de Nancy, Bibliothèque de l'Alcazar à Marseille et Bibliothèque départementale de la Réunion) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon, la Lorraine, la Provence-Alpes-Côte d'Azur et la Réunion.

L’ensemble des sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF et des bibliothèques de dépôt légal imprimeur.

Pour chaque collecte courante et/ou projet, sept tableaux csv sont mis à disposition : la liste des URL (de sites, blogs, comptes de réseaux sociaux) collectées de 2011 à 2016 et les listes de celles collectées en 2017, 2018, 2019, 2020, 2021 et 2022. Ces tableaux csv sont regroupés en 23 fichiers compressés. Chaque fichier contient les tableaux csv d’une collecte courante thématique et les csv des collectes projet en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL). Les fichiers sont encodés en UTF-8.

Au total, ce jeu de données est constitué de 191 tableaux csv contenant plus de 110 000 adresses URL collectées depuis 2011.

La BnF procède aussi à des collectes du web électoral.

Producteur

Dernière mise à jour

24 octobre 2023

Licence

Licence Ouverte / Open Licence

Qualité des métadonnées
100.0/100

Il n'y a pas encore de discussion pour ce jeu de données.

Il n'y a pas encore de ressources communautaires pour ce jeu de données.

Partagez vos ressources En savoir plus sur la communauté

Informations

Temporalité

Création

8 février 2018

Fréquence

Annuelle

Couverture temporelle

2011 à 2022

Dernière mise à jour

24 octobre 2023

Couverture spatiale

Couverture territoriale

France

Granularité de la couverture territoriale

Autre

Actions

Intégrer sur votre site

Visites

2,1k

73 en mars 2024

Téléchargements

994

39 en mars 2024

Réutilisations de ce jeu de données

1

Favoris

0