Credibility Corpus with several datasets (Twitter, Web database) in French and English

Qualité des métadonnées : 0.6666666666666666/1
Qualité des métadonnées :
Description des données renseignée
Ressources documentées
Licence renseignée
Fréquence de mise à jour non renseignée
Formats de fichiers standards
Couverture temporelle renseignée
Couverture spatiale non renseignée
Mis à jour le 1 décembre 2016 — Creative Commons Attribution
Ce jeu de données a été publié à l'initiative et sous la responsabilité de nicolas turenne
Publié le 1 décembre 2016 et mis à jour le 1 décembre 2016

nicolas turenne

4 jeux de données

Informations

Licence
Creative Commons Attribution
ID
5840066288ee38426dc65bb3

Temporalité

Couverture temporelle
01/01/2006 à 01/07/2015
Fréquence
Inconnu
Date de création
1 décembre 2016
Dernière mise à jour de ressource
1 décembre 2016

Intégrer sur votre site

URL stable

Description

Description of the corpora

The set of these datasets are made to analyze ifnormation credibility in general
(rumor and disinformation for English and French documents),
and occuring on the social web.
Target databases about rumor, hoax and disinformation helped to
collect obviously misinformation. Some topic (with keywords) helps us to made corpora from the micrroblogging
platform Twitter, great provider of rumors and disinformation.

1 corpus describes Texts from the web database about rumors and disinformation.
4 corpora from Social Media Twitter about specific rumors (2 in English, 2 in French).
4 corpora from Social Media Twitter randomly built (2 in English, 2 in French).
4 corpora from Social Media Twitter about specific rumors (2 in English, 2 in French).

Size of different corpora :

Social Web Rumorous corpus: 1,612

French Hollande Rumorous corpus (Twitter): 371
French Lemon Rumorous corpus (Twitter): 270
English Pin Rumorous corpus (Twitter): 679
English Swine Rumorous corpus (Twitter): 1024

French 1st Random corpus (Twitter): 1000
French 2st Random corpus (Twitter): 1000
English 3st Random corpus (Twitter): 1000
English 4st Random corpus (Twitter): 1000

French Rihanna Event corpus (Twitter): 543
English Rihanna Event corpus (Twitter): 1000
French Euro2016 Event corpus (Twitter): 1000
English Euro2016 Event corpus (Twitter): 1000

A matrix links tweets with most 50 frequent words

Text data :

_id : message id
body text : string text data

Matrix data :

52 columns (first column is id, second column is rumor indicator 1 or -1, other columns are words value is 1 contain or 0 does not contain)
11,102 lines (each line is a message)

Hidalgo corpus: lines range 1:75
Lemon corpus : lines range 76:467
Pin rumor : lines range 468:656
swine : lines range 657:1311

random messages : lines range 1312:11103

Sample contains :
French Pin Rumorous corpus (Twitter): 679
Matrix data :

52 columns (first column is id, second column is rumor indicator 1 or -1, other columns are words value is 1 contain or 0 does not contain)
189 lines (each line is a message)

Fichiers 6

Ressources communautaires 0

Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !

Explorez les réutilisations de ce jeu de données.

Avez-vous utilisé ces données ? Référencez votre travail et augmentez votre visibilité.

Discussion entre le producteur et la communauté à propos de ce jeu de données.