Statistiques et rapports d'optimisation sur les sites…
IPA
Published on 9 de abril de 2022 by p3x.Fr

La Bibliothèque nationale de France (BnF) a pour mission de collecter, conserver et diffuser le patrimoine documentaire national.
Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement un échantillon du web français, constitué à partir de collectes larges (annuelles et non sélectives) et de collectes ciblées. Ces dernières regroupent deux types de collectes :
L’ensemble des sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF et des bibliothèques de dépôt légal imprimeur.
Pour chaque collecte courante et/ou projet, six tableaux csv sont mis à disposition : la liste des URL (de sites, blogs, comptes de réseaux sociaux) collectées de 2011 à 2016 et les listes de celles collectées en 2017, 2018, 2019, 2020 et 2021. Ces tableaux csv sont regroupés en 19 fichiers compressés. Chaque fichier contient les tableaux csv d’une collecte courante thématique et les csv des collectes projet en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL). Les fichiers sont encodés en UTF-8.
Au total, ce jeu de données est constitué de 161 tableaux csv contenant plus de 95 000 adresses URL collectées depuis 2011.
La BnF procède aussi à des collectes du web électoral.
You have built a more comprehensive database than those presented here? This is the time to share it!
Explore the reuses of this dataset.
Did you use this data ? Reference your work and increase your visibility.
IPA
Published on 9 de abril de 2022 by p3x.Fr
Discussion between the organization and the community about this dataset.