République
Française

  • Log in
  • Sign up
  • Datos
  • Reutilizaciones
  • Organizaciones
    • What is data.gouv.fr?
    • How to publish data ?
    • How to use data ?
  • News
  • Contact us
  1. Inicio
  2. Conjunto de datos
  3. Collectes thématiques du web par la BnF

Collectes thématiques du web par la BnF

Metadata quality: 1.0/1
Metadata quality:
Data description filled
Resources documented
License filled
Update frequency followed
File formats are open
Temporal coverage filled
Spatial coverage filled
Learn more about this indicator
Updated on 11 de julio de 2022 — Licence Ouverte / Open Licence

Bibliothèque nationale de France

La Bibliothèque nationale de France (BnF) a pour mission de collecter, conserver et diffuser le patrimoine documentaire national.

13 datasets
  • actualites
  • administration
  • archivage-du-web
  • arts
  • arts-du-spectacle
  • audiovisuel
  • bibliotheque-nationale-de-france
  • culture
  • depot-legal
  • droit
  • economie
  • estampes
  • histoire
  • internet
  • jeux-olympiques
  • litterature
  • musique
  • philosophie
  • politique
  • recherche-bibliographique
  • sciences

Informations

Licencia
Licence Ouverte / Open Licence
ID
5a7c6d10c751df4dfc94dbd2

Temporality

Cobertura temporal
2011/01/01 to 2021/12/20
Frequency
Anual
Fecha de creación
8 de febrero de 2018
Latest resource update
11 de julio de 2022

Geographic dimensions

Territorial coverage granularity
Otro
Territorial coverage
France

Participate

Add a reuse Contact the producer

Embed

Permalink

Summary
  1. Descripción
  2. Files 19
  3. Community resources 0
  4. Reutilizaciones 1
  5. Discussions 0

Descripción

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la Bibliothèque nationale de France collecte régulièrement un échantillon du web français, constitué à partir de collectes larges (annuelles et non sélectives) et de collectes ciblées. Ces dernières regroupent deux types de collectes :

  • les collectes « projets », souvent menées en coopération avec des partenaires (bibliothèques, centres de recherche, associations), et caractérisées par leur sensibilité plus forte à l’actualité ainsi que par leur transversalité ou spécificité thématique ;
  • les collectes « courantes », pour les sites de référence sur un champ disciplinaire donné, réalisées depuis 2011 à des fréquences variables (de « une fois par semaine » à « une fois par an »). En partenariat avec la BnF, trois bibliothèques (Bibliothèque nationale et universitaire de Strasbourg, Médiathèque centrale d'Agglomération Emile Zola de Montpellier et Bibliothèque municipale de Nancy) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon et la Lorraine.

L’ensemble des sites archivés sont consultables par les chercheurs dans les salles de lecture de la BnF et des bibliothèques de dépôt légal imprimeur.

Pour chaque collecte courante et/ou projet, six tableaux csv sont mis à disposition : la liste des URL (de sites, blogs, comptes de réseaux sociaux) collectées de 2011 à 2016 et les listes de celles collectées en 2017, 2018, 2019, 2020 et 2021. Ces tableaux csv sont regroupés en 19 fichiers compressés. Chaque fichier contient les tableaux csv d’une collecte courante thématique et les csv des collectes projet en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL). Les fichiers sont encodés en UTF-8.

Au total, ce jeu de données est constitué de 161 tableaux csv contenant plus de 95 000 adresses URL collectées depuis 2011.

La BnF procède aussi à des collectes du web électoral.

Files 19

Community resources 0

Publish a resource

You have built a more comprehensive database than those presented here? This is the time to share it!

Reutilizaciones 1

Add a reuse

Explore the reuses of this dataset.

Did you use this data ? Reference your work and increase your visibility.

Statistiques et rapports d'optimisation sur les sites…

IPA

Published on 9 de abril de 2022 by p3x.Fr

Discussion between the organization and the community about this dataset.

Participate

  • Create or find your organization
  • Go to documentation
Publish a dataset
Publish a reuse

Los datos abiertos

  • Featured topics
  • Reference Data
  • Portal for European data
  • Data catalog
  • Release notes

Support

  • Platform's documentation
  • Portal's API
  • Open data guides
  • Contact us

Social networks

  • Created by potrace 1.15, written by Peter Selinger 2001-2017
  • RSS
  • Newsletter
  • A DINUM department
  • numerique.gouv.fr
  • Open-source engine: udata (6.0.1)
  • udata theme extension: udata-front (3.1.1)

république
française

  • Gouvernement.fr
  • France.fr
  • Legifrance.gouv.fr
  • Service-public.fr
  • Opendata France
  • CADA.fr
  • Etalab.gouv.fr
  • Licences
  • Términos de uso
  • Tracking and privacy
  • Accessibility: partially compliant

Unless otherwise stated, all content of this site is availabe under Open Licence 2.0