Open Bilbio corpus for content analysis

Description

Description of the corpus

The corpus describes fulltexts publication in sciences (mathemtaics, computing, statistics) in LATEX or TXT format.
They are published in open access.

Purprose to use this corpus is twice :

  • information extraction (for instance: extract all collocations around a target word, or extract methods names)
  • comparison of abstract and body text

size of publication corpus : 650,000
size of publication sample : 20

data :

body string text data

Producteur
nicolas turenne
Ce jeu de données a été publié à l'initiative et sous la responsabilité de nicolas turenne.
Dernière mise à jour
2 décembre 2016
Qualité des métadonnées:
Bon(67 %)
  • Fréquence de mise à jour non respectée

  • Couverture spatiale non renseignée

  • Certains fichiers ne sont pas disponibles

2 Fichier principal

Mis à jour le 12 octobre 2023 zip (28.6Mo)160

Mis à jour le 2 décembre 2016 rar (14.6Mo)16