Collectes thématiques du web par la BnF

This dataset comes from a certified public service

Bibliothèque nationale de France

Informations

License
Licence Ouverte / Open Licence
Temporal coverage
2011/01/01 to 2020/12/20
Frequency
Annual
Creation date
February 8, 2018
Modification date
April 1, 2021
Latest resource update
March 12, 2021
Territorial coverage granularity
Other
Territorial coverage
France

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement un échantillon du web français, constitué à partir de collectes larges (annuelles et non sélectives) et de collectes ciblées. Ces dernières regroupent deux types de collectes :

  • les collectes « projets », souvent menées en coopération avec des partenaires (bibliothèques, centres de recherche, associations), et caractérisées par leur sensibilité plus forte à l’actualité ainsi que par leur transversalité ou spécificité thématique ;
  • les collectes « courantes », pour les sites de référence sur un champ disciplinaire donné, réalisées depuis 2011 à des fréquences variables (de « une fois par semaine » à « une fois par an »). En partenariat avec la BnF, trois bibliothèques (Bibliothèque nationale et universitaire de Strasbourg, Médiathèque centrale d'Agglomération Emile Zola de Montpellier et Bibliothèque municipale de Nancy) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon et la Lorraine.

L’ensemble des sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF et des bibliothèques de dépôt légal imprimeur.

Pour chaque collecte courante et/ou projet, cinq tableaux csv sont mis à disposition : la liste des URL (de sites, blogs, comptes de réseaux sociaux) collectées de 2011 à 2016 et les listes de celles collectées en 2017, 2018, 2019 et 2020. Ces tableaux csv sont regroupés en 19 fichiers compressés. Chaque fichier contient les tableaux csv d’une collecte courante thématique et les csv des collectes projet en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL). Les fichiers sont encodés en UTF-8.

Au total, ce jeu de données est constitué de 134 tableaux csv contenant plus de 95 000 adresses URL collectées depuis 2011.

La BnF procède aussi à des collectes du web électoral.

Resources 19

See also: community resources
2 downloads

Liste des sites sélectionnés par le département Arts du spectacle de 2011 à 2020

Disponible
zip (70.4Ko)
Type
Main file
MIME Type
application/zip
sha1
48a5dad5a361e7dcc61af833cd1a146f40b83da2
Created on
February 9, 2018
Modified on
March 9, 2021
Published on
March 9, 2021
1 downloads

Liste des sites sélectionnés par le département Audiovisuel de 2011 à 2020

Disponible
zip (733.9Ko)

Liste des sites sélectionnés par le département Audiovisuel de 2011 à 2020

Type
Main file
MIME Type
application/zip
sha1
0bc7ee2e619e50aa6077b1731f8f39300af0c867
Created on
February 9, 2018
Modified on
March 9, 2021
Published on
March 9, 2021
0 downloads

Liste des sites sélectionnés par le département des Cartes et plans de 2011 à 2020

Disponible
zip (163.8Ko)
Type
Main file
MIME Type
application/zip
sha1
028a6ac7df5e60832b7f7787657b581a8b6eb62c
Created on
February 9, 2018
Modified on
March 9, 2021
Published on
March 9, 2021
2 downloads

Liste des sites sélectionnés par le département du Dépôt légal de 2011 à 2020

Disponible
zip (286.9Ko)
Type
Main file
MIME Type
application/zip
sha1
a33a0b76e61e2ac75ec12435dd36231f99e805bd
Created on
February 9, 2018
Modified on
March 9, 2021
Published on
March 9, 2021
1 downloads

Liste des sites sélectionnés par le département Droit, économique, politique de 2011 à 2020

Disponible
zip (103.1Ko)
Type
Main file
MIME Type
application/zip
sha1
c6f6ba26f921ccd404dc238820ddd8ffd4365ebc
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2021
1 downloads

Liste des sites sélectionnés par le département Estampes de 2011 à 2020

Disponible
zip (65.4Ko)
Type
Main file
MIME Type
application/zip
sha1
d626cf95a1b1525035280f65111a19999dd2355d
Created on
February 9, 2018
Modified on
March 9, 2021
Published on
March 9, 2021
4 downloads

Liste des sites sélectionnés par le département Littérature et art de 2011 à 2020

Disponible
zip (1.0Mo)
Type
Main file
MIME Type
application/zip
sha1
71408b2997734559fd66b979333acb7983d977ef
Created on
February 9, 2018
Modified on
March 9, 2021
Published on
March 9, 2021
0 downloads

Liste des sites sélectionnés par le département de la Musique de 2011 à 2020

Disponible
zip (91.3Ko)
Type
Main file
MIME Type
application/zip
sha1
60c46696f3f043717527a2d8ba3baaa04ad508cf
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2020
2 downloads

Liste des sites sélectionnés par le département de l'Orientation et de la recherche bibliographique de 2011 à 2020

Disponible
zip (17.7Ko)
Type
Main file
MIME Type
application/zip
sha1
d8ee34bf8704737c54439a752b0e331d74e27177
Created on
February 9, 2018
Modified on
March 9, 2021
Published on
March 9, 2021
2 downloads

Liste des sites sélectionnés par le département Philosophie, histoire, sciences de l'homme de 2011 à 2020

Disponible
zip (769.3Ko)
Type
Main file
MIME Type
application/zip
sha1
8975b764d15a43d195f8c353fc698244a823b089
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2020
0 downloads

Liste des sites sélectionnés par le département Sciences et techniques de 2011 à 2020

Disponible
zip (332.7Ko)
Type
Main file
MIME Type
application/zip
sha1
aaee4e97ff8b2e2ae99223453e0c5d7be2aeb844
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2020
0 downloads

Liste des sites sur le thème des enjeux environnementaux collectés en 2020

Disponible
zip (19.2Ko)
Type
Main file
MIME Type
application/zip
sha1
b096a4ce7cf790bda5c89b63178200021550f307
Created on
March 12, 2021
Modified on
March 12, 2021
Published on
March 12, 2021
0 downloads

Liste des sites sur le thème de l'intelligence artificielle collectés en 2020

Disponible
zip (13.9Ko)
Type
Main file
MIME Type
application/zip
sha1
db45320f4cff202a06dda704d4dc5e8f453e66b6
Created on
March 12, 2021
Modified on
March 12, 2021
Published on
March 12, 2021
0 downloads

Liste des sites des collectes Jeux olympiques collectés de 2012 à 2018

Disponible
zip (85.8Ko)
Type
Main file
MIME Type
application/zip
sha1
15e29362ad7bc9cf9e160041a34ca2eed8a00748
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2020
2 downloads

Liste des sites sélectionnés par la Médiathèque centrale d'Agglomération Emile Zola de Montpellier de 2017 à 2020

Disponible
zip (31.4Ko)
Type
Main file
MIME Type
application/zip
sha1
e54540de9704f141d4e1844c123d069c3f7ef8df
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2020
1 downloads

Liste des sites sélectionnés par la Bibliothèque municipale de Nancy de 2017 à 2020

Disponible
zip (22.5Ko)
Type
Main file
MIME Type
application/zip
sha1
b3f93c2f554487b01ff938964d31467ff9411b7f
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2020
2 downloads

Liste des sites sélectionnés par la Bibliothèque nationale et universitaire de Strasbourg de 2013 à 2020

Disponible
zip (32.2Ko)
Type
Main file
MIME Type
application/zip
sha1
4b6eb6765e650d5b49b13df6d178fff663e1b791
Created on
February 9, 2018
Modified on
March 12, 2021
Published on
March 9, 2020

Embed

You can easily embed this dataset on your website by pasting this snippet in your html page.

Community contributions

Community resources 0

You have built a more comprehensive database than those presented here? This is the time to share it!

Reuses 0

You reused these data and published an article, a computer graphics, or an application? It's time to let you know! Reference your work in just a few clicks and increase your visibility.

Discussions 0

Discussion between the organization and the community about this dataset.