Collectes thématiques du web par la BnF

Mis à jour le 12 mars 2021 — Licence Ouverte / Open Licence

Bibliothèque nationale de France

La Bibliothèque nationale de France (BnF) a pour mission de collecter, conserver et diffuser le patrimoine documentaire national.

12 jeux de données

Informations

Temporalité

Dimensions géographiques

Intégrer sur votre site

URL stable

Description

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement un échantillon du web français, constitué à partir de collectes larges (annuelles et non sélectives) et de collectes ciblées. Ces dernières regroupent deux types de collectes :

  • les collectes « projets », souvent menées en coopération avec des partenaires (bibliothèques, centres de recherche, associations), et caractérisées par leur sensibilité plus forte à l’actualité ainsi que par leur transversalité ou spécificité thématique ;
  • les collectes « courantes », pour les sites de référence sur un champ disciplinaire donné, réalisées depuis 2011 à des fréquences variables (de « une fois par semaine » à « une fois par an »). En partenariat avec la BnF, trois bibliothèques (Bibliothèque nationale et universitaire de Strasbourg, Médiathèque centrale d'Agglomération Emile Zola de Montpellier et Bibliothèque municipale de Nancy) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon et la Lorraine.

L’ensemble des sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF et des bibliothèques de dépôt légal imprimeur.

Pour chaque collecte courante et/ou projet, cinq tableaux csv sont mis à disposition : la liste des URL (de sites, blogs, comptes de réseaux sociaux) collectées de 2011 à 2016 et les listes de celles collectées en 2017, 2018, 2019 et 2020. Ces tableaux csv sont regroupés en 19 fichiers compressés. Chaque fichier contient les tableaux csv d’une collecte courante thématique et les csv des collectes projet en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL). Les fichiers sont encodés en UTF-8.

Au total, ce jeu de données est constitué de 134 tableaux csv contenant plus de 95 000 adresses URL collectées depuis 2011.

La BnF procède aussi à des collectes du web électoral.

Ressources 19

Voir aussi : ressources communautaires
2 téléchargements

Liste des sites sélectionnés par le département Arts du spectacle de 2011 à 2020

Disponible
zip (70.4Ko)
Type
Fichier principal
Type MIME
application/zip
sha1
48a5dad5a361e7dcc61af833cd1a146f40b83da2
Créée le
9 février 2018
Modifiée le
9 mars 2021
Publiée le
9 mars 2021
3 téléchargements

Liste des sites sélectionnés par le département Audiovisuel de 2011 à 2020

Disponible
zip (733.9Ko)

Liste des sites sélectionnés par le département Audiovisuel de 2011 à 2020

Type
Fichier principal
Type MIME
application/zip
sha1
0bc7ee2e619e50aa6077b1731f8f39300af0c867
Créée le
9 février 2018
Modifiée le
9 mars 2021
Publiée le
9 mars 2021
1 téléchargements

Liste des sites sélectionnés par le département des Cartes et plans de 2011 à 2020

Disponible
zip (163.8Ko)
Type
Fichier principal
Type MIME
application/zip
sha1
028a6ac7df5e60832b7f7787657b581a8b6eb62c
Créée le
9 février 2018
Modifiée le
9 mars 2021
Publiée le
9 mars 2021
3 téléchargements

Liste des sites sélectionnés par le département du Dépôt légal de 2011 à 2020

Disponible
zip (286.9Ko)
Type
Fichier principal
Type MIME
application/zip
sha1
a33a0b76e61e2ac75ec12435dd36231f99e805bd
Créée le
9 février 2018
Modifiée le
9 mars 2021
Publiée le
9 mars 2021
1 téléchargements

Liste des sites sélectionnés par le département Droit, économique, politique de 2011 à 2020

Disponible
zip (103.1Ko)
Type
Fichier principal
Type MIME
application/zip
sha1
c6f6ba26f921ccd404dc238820ddd8ffd4365ebc
Créée le
9 février 2018
Modifiée le
12 mars 2021
Publiée le
9 mars 2021
1 téléchargements

Liste des sites sélectionnés par le département Estampes de 2011 à 2020

Disponible
zip (65.4Ko)
Type
Fichier principal
Type MIME
application/zip
sha1
d626cf95a1b1525035280f65111a19999dd2355d
Créée le
9 février 2018
Modifiée le
9 mars 2021
Publiée le
9 mars 2021
Voir les 19 ressources de type Fichier principal

Ressources communautaires 0

Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !

Réutilisations 0

Vous avez réutilisé ces données et publié un article, une infographie, ou une application ? C'est le moment de vous faire connaître ! Référencez votre travail en quelques clics et augmentez votre visibilité.

Discussions 0

Discussion entre l'organisation et la communauté à propos de ce jeu de données.