Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement un échantillon du web français, constitué à partir de collectes larges (annuelles et non sélectives) et de collectes ciblées. Ces dernières regroupent deux types de collectes :

  • les collectes « projets », souvent menées en coopération avec des partenaires (bibliothèques, centres de recherche, associations), et caractérisées par leur sensibilité plus forte à l’actualité ainsi que par leur transversalité ou spécificité thématique ;
  • les collectes « courantes », pour les sites de référence sur un champ disciplinaire donné, réalisées depuis 2011 à des fréquences variables (de « une fois par semaine » à « une fois par an »). En partenariat avec la BnF, trois bibliothèques (Bibliothèque nationale et universitaire de Strasbourg, Médiathèque centrale d'Agglomération Emile Zola de Montpellier et Bibliothèque municipale de Nancy) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon et la Lorraine.

L’ensemble des sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF et des bibliothèques de dépôt légal imprimeur.

Pour chaque collecte courante et/ou projet, cinq tableaux csv sont mis à disposition : la liste des URL (de sites, blogs, comptes de réseaux sociaux) collectées de 2011 à 2016 et les listes de celles collectées en 2017, 2018, 2019 et 2020. Ces tableaux csv sont regroupés en 19 fichiers compressés. Chaque fichier contient les tableaux csv d’une collecte courante thématique et les csv des collectes projet en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL). Les fichiers sont encodés en UTF-8.

Au total, ce jeu de données est constitué de 134 tableaux csv contenant plus de 95 000 adresses URL collectées depuis 2011.

La BnF procède aussi à des collectes du web électoral.

Recursos

Liste des sites sélectionnés par le département Arts du spectacle de 2011 à 2020

Liste des sites sélectionnés par le département Audiovisuel de 2011 à 2020

Liste des sites sélectionnés par le département Audiovisuel de 2011 à 2020

Liste des sites sélectionnés par le département des Cartes et plans de 2011 à 2020

Liste des sites sélectionnés par le département du Dépôt légal de 2011 à 2020

Liste des sites sélectionnés par le département Droit, économique, politique de 2011 à 2020

Liste des sites sélectionnés par le département Estampes de 2011 à 2020

Liste des sites sélectionnés par le département Littérature et art de 2011 à 2020

Liste des sites sélectionnés par le département de la Musique de 2011 à 2020

Liste des sites sélectionnés par le département de l'Orientation et de la recherche bibliographique de 2011 à 2020

Liste des sites sélectionnés par le département Philosophie, histoire, sciences de l'homme de 2011 à 2020

Liste des sites sélectionnés par le département Sciences et techniques de 2011 à 2020

Liste des sites d'actualités collectés de 2011 à 2020

Liste des sites d'administration collectés de 2011 à 2020

Liste des sites sur le thème des enjeux environnementaux collectés en 2020

Liste des sites sur le thème de l'intelligence artificielle collectés en 2020

Liste des sites des collectes Jeux olympiques collectés de 2012 à 2018

Liste des sites sélectionnés par la Médiathèque centrale d'Agglomération Emile Zola de Montpellier de 2017 à 2020

Liste des sites sélectionnés par la Bibliothèque municipale de Nancy de 2017 à 2020

Liste des sites sélectionnés par la Bibliothèque nationale et universitaire de Strasbourg de 2013 à 2020

Expedientes comunitarios

¿Usted ha constuído un conjunto de datos más comprensible que los que aparecen aquí? ¡Es momento de compartilo!

Reutilizaciones

¿Usted reutiliza estos datos y publica un artículo, una infografía o una aplicación? ¡Es hora de darlo a conocer! Referencie su trabajo en tan sólo unos clicks y aumene su visibilidad.

Discusiones

Discusión entre la organización y la comunidad sobre este conjunto de datos.