Open Bilbio corpus for content analysis

Ce jeu de données a été publié à l'initiative et sous la responsabilité de nicolas turenne
Publié le 1 décembre 2016 et mis à jour le 1 décembre 2016

nicolas turenne

Informations

Couverture temporelle
1994/01/01 to 2014/07/01
Fréquence
Semestrielle
Date de création
1 décembre 2016
Date de mise à jour
2 décembre 2016
Dernière mise à jour de ressource
1 décembre 2016

Extras

ID
5840026288ee383a2cc65bb3
Date de création
1 décembre 2016
Date de mise à jour
2 décembre 2016

Description of the corpus

The corpus describes fulltexts publication in sciences (mathemtaics, computing, statistics) in LATEX or TXT format.
They are published in open access.

Purprose to use this corpus is twice :

  • information extraction (for instance: extract all collocations around a target word, or extract methods names)
  • comparison of abstract and body text

size of publication corpus : 650,000
size of publication sample : 20

data :

body string text data

Ressources 2

Voir aussi : ressources communautaires
8 téléchargements

Open Biblio corpus - Science publication (whole dataset)

Disponible
zip (28.6Mo)

Description of the corpus

The corpus describes fulltexts publication in sciences (mathemtaics, computing, statistics) in LATEX or TXT format.
They are published in open access.

Purprose to use this corpus is twice :

  • information extraction (for instance: extract all collocations around a target word, or extract methods names)
  • comparison of abstract and body text

size of publication corpus : 650,000

Type
Fichier principal
Type MIME
None
Créée le
2 décembre 2016
Modifiée le
2 décembre 2016
Publiée le
1 décembre 2016
1 téléchargements

Open Biblio corpus - scientific full-texts publications (sample)

Disponible
rar (14.6Mo)

Description of the corpus

The corpus describes fulltexts publication in sciences (mathemtaics, computing, statistics) in LATEX or TXT format.
They are published in open access.

Purprose to use this corpus is twice :

  • information extraction (for instance: extract all collocations around a target word, or extract methods names)
  • comparison of abstract and body text

size of publication corpus : 650,000
size of publication sample : 10

data :

body string text data

Sample corpus :
date range: 1981-1998
corpus type: scientific publications
publisher: elsevier
domains: Statistics, Chemistry, Environment, Biology, Computing
format: pdf, txt

sizeSample: 10

PageSample: 177

Language: English

Type
Fichier principal
Type MIME
application/rar
sha1
8a46f7b07b743f2578746b799c414096fb93c454
Créée le
1 décembre 2016
Modifiée le
2 décembre 2016
Publiée le
1 décembre 2016

Embed

Vous pouvez facilement intégrer ce jeu de données sur votre site en collant cet extrait de code dans votre page html.

Ressources communautaires 0

Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !

Réutilisations 0

Vous avez réutilisé ces données et publié un article, une infographie, ou une application ? C'est le moment de vous faire connaître ! Référencez votre travail en quelques clics et augmentez votre visibilité.

Discussions 0

Discussion entre l'organisation et la communauté à propos de ce jeu de données.