Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement un échantillon du web français, constitué à partir de collectes larges (annuelles et non sélectives) et de collectes ciblées. Ces dernières regroupent deux types de collectes :

  • les collectes « projet », souvent menées en coopération avec des partenaires (bibliothèques, centres de recherches, associations), et caractérisées par leur sensibilité plus forte à l’actualité ainsi que par leur transversalité ou spécificité thématique
  • les collectes « courantes », pour les sites de référence sur un champ disciplinaire donné, réalisées depuis 2011 à des fréquences variables (de « une fois par semaine » à « une fois par an »). En partenariat avec la BnF, trois bibliothèques (Bibliothèque nationale et universitaire de Strasbourg ; Médiathèque centrale d'Agglomération Emile Zola de Montpellier ; Bibliothèque municipale de Nancy) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon et la Lorraine.

L’ensemble des sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF et d’établissements partenaires.
Pour chaque collecte courante et/ou projet, deux tableaux csv sont mis à disposition : la liste des URL (de sites, blogs, comptes de réseaux sociaux) collectées de 2011 à 2016 et la liste de celles collectés en 2017. Ces tableaux csv sont regroupés en 17 fichiers compressés. Chaque fichier contient les tableaux csv d’une collecte courante thématique et les csv des collectes projet en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL).

Au total, ce jeu de données est constitué de 57 tableaux csv contenant 57538 adresses URL collectées depuis 2011.

La BnF procède aussi à des collectes du web électoral.

Ressources

zip

Liste des sites sélectionnés par le département Audiovisuel de 2011 à 2017

Dernière modification le vendredi 9 février 2018

zip

Liste des sites sélectionnés par le département Estampes de 2011 à 2017

Dernière modification le vendredi 9 février 2018

zip

Liste des sites sélectionnés par le département Musique de 2011 à 2017

Dernière modification le vendredi 9 février 2018

zip

Liste des sites d'actualités collectés de 2011 à 2017

Dernière modification le vendredi 9 février 2018

zip

Liste des sites d'administration collectés de 2011 à 2017

Dernière modification le vendredi 9 février 2018

zip

Liste des sites des collectes Jeux olympiques collectés de 2012 à 2016

Dernière modification le vendredi 9 février 2018

Discussions

Discussion entre l'organisation et la communauté à propos de ce jeu de données.

Ressources communautaires

Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !

Réutilisations

Vous avez réutilisé ces données et publié un article, une infographie, ou une application ? C'est le moment de vous faire connaître ! Référencez votre travail en quelques clics et augmentez votre visibilité.