ABCDEFGHIJKLMNOPQRSTUVWXYZAAABACADAEAFAGAHAI
1
IDN° d'ordreDomaine du problèmeTypes de données concernéesType de problèmeExempleDétecter le problèmeLigne de commande pour le contrôleRéduit considérablement l'usage des donnéesNiveau d'importance du problèmeTemps d'analyse en minAnalyse semi-automatisableSolutionTemps de traitementRemarques
2
11Jeu de données & métadonnéesToutesLe jeu de données est dans un format "image" ne permettant pas de manipuler les donnéesLe jeu de données est un fichier image au format JPEG ou PDF.Ouvrir le fichier et tenter de copier/coller les donnéesoui111* Demander au producteur une version qui permette de manipuler les données (CSV, Excel, etc.)
* Essayer une phase d'OCR du document
3
22Jeu de données & métadonnéesToutesLe jeu de données est dans un format non spécifiquement adapté aux données : PDF, Word, ODF, epub, HTML, SVG, etc.Le jeu de données est un fichier HTML.Déterminer le format du fichieroui111Dans certains cas la méthode du scrapping est une solution.Les formats PDF ou de traitement de texte rendent l'exploitation des données difficiles.
4
33Jeu de données & métadonnéesToutesLe format du jeu de données n'est pas précisé (fichier CSV, TSV, etc.)l'extension du jeu de données ne permet pas de savoir quel logiciel permet de l'ouvrir et l'éditeur n'a pas fourni d'indication complémentaireEssayer d'ouvrir le fichier ? 110* Demander au producteur
* Rétro-documenter le format
5
314Jeu de données & métadonnéesToutesLa documentation et les métadonnées sont quasi inexistantes voire absentesLa documentation tient sur 5 lignes alors que le fichier est très complexeLecture des métadonnéesoui110* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
C'est important de voir ça très en amont : si l'on veut corriger cela, certains points de contrôle participeront à la documentation
6
1155Jeu de données & métadonnéesToutesLa documentation et les métadonnées sont d'un usage difficile (doc papier, doc au format PDF image, doc uniquement en anglais, etc.)La documentation est fourni sous forme de PDF image : les usagers ne peuvent pas rechercher des termes pour y naviguer rapidementConsultation de la doc et des métadonnées110* Demander au producteur
7
46Jeu de données & métadonnéesToutesLa licence du jeu de données ne nous permet pas de l'utiliserLe jeu de données est un fichier commercial que l'on n'a pas achetéEn cas de doute, demander au producteur d'où viennent les données1150
8
57Jeu de données & métadonnéesToutesLe format du jeu de données n'est pas ouvertLe fichier est au format .xls ou .xlsxNe pas seulement se baser sur l'extension mais ouvrir également le fichierfile nom.du.fichier111* Vérifier que le document existe dans un format ouvert
* Convertir le document dans un format ouvert
9
68Jeu de données & métadonnéesToutesLe format du jeu de données ne permet pas d'ouvrir le fichier dans des outils très répandus (Excel, Notepad...)Le fichier au format .csv s'ouvre mal dans Excel, outil le plus répandu pour ouvrir des tableauxEssayer d'ouvrir le fichier ? 111
10
79Jeu de données & métadonnéesToutesL'encodage du fichier n'est pas spécifié (ISO-8859-1, UTF8, etc.)Le fichier contient des caractères ésotériques mais on ne sait pas s'il s'agit d'un problème d'encodageLecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
11
810Jeu de données & métadonnéesToutesL'encodage n'est pas en UTF-8 : ce dernier devient la norme de facto et d'autres encodages peuvent engendrer des problèmesL'encodage est en ISO-8859-1Ouvrir le fichier avec un éditeur qui spécifie l'encodagefile file.csviconv -f ISO-8859-1 -t UTF-8 ./caracteristiques_2015.csv > caracteristiques_2015_rev1.csv
12
911Jeu de données & métadonnéesToutesL'encodage n'est pas homogèneCertaines données sont correctement encodées et d'autres contiennent des caractères ésotériquesOuvrir le fichier et parcourir visuellement les données ; rechercher quelques chaînes comme "é" ou "?" ou "?t?" ou "g?n?ral" etc.perl -F/,/ -alne 'print if 1..1;print if m/([a-z]\?[a-z]|é)/i;' file.csv | csvsort | csvlook
13
1012Jeu de données & métadonnéesToutesLe fichier est mal forméPour certaines lignes, parfois une colonne manque, ou, le fichier cvs comporte des "virgule" non formatées et empêche l'ouverture correcte du fichierOuvrir le fichier, trier la dernière colonne du fichier et regarder le résultatcsvclean --dry-run file.csvoui111
14
1113Jeu de données & métadonnéesToutesLe jeu de données concernant des horaires de mode de transport ne possède pas de version au format GTFSLe fichier n'est pas au format GTFS211
15
1214Jeu de données & métadonnéesToutesLe jeu de données concernant des œuvres n’est pas au format Dublin CoreLe fichier n'est pas au format Dublin Core211
16
1315Jeu de données & métadonnéesToutesLe jeu de données utilise une norme peu accessible au plus grand nombre (coût, complexité)Le jeu de données est au format TRIDENT210
17
1416Jeu de données & métadonnéesToutesLe process d'acquisition n'est pas connuWiki leaksLecture des métadonnées210Évaluer le process et vérifier un échantillon de donnéesRedondant avec "Métadonnées imprécises : process et contexte de production non explicités" ?
18
1517Jeu de données & métadonnéesToutesL'échantillon n'est pas documentéL'échantillon semble représentatif mais on ne peut pas vérifier qu'il le soit bien, puisque ce dernier n'est pas documentéLecture des métadonnées210
19
1618Jeu de données & métadonnéesToutesLe format d'un des champs n'est pas documenté, si bien qu'on ne peut comprendre ce qu'il contient ou bien contrôler ses valeurs* La date est parfois exprimée par le nombre de secondes depuis 1970 ; cette donnée est difficile à comprendre.
* Un jeu de données contient un champ "Image" en binaire, dont le format n'est pas spécifié.
Lecture des métadonnées et ouverture du fichier : le format champ binaire est-il documenté ?230* Demander au producteur
* Rétro-documenter le format
20
1719Jeu de données & métadonnéesToutesLa taille maximale d’un champ n’est pas documentéeOn ne sait pas si un code peu dépasser 10 caractères et si certaines valeurs sont donc faussesLecture des métadonnées230* Demander au producteur
* Rétro-documenter le format
21
1820Jeu de données & métadonnéesToutesPour tel champ, l'incertitude de la mesure n'est pas documentée (appelée aussi "précision", exprimée en % ou bien "à plus plus ou moins X unités près")Des coordonnées GPS sont indiquées mais on ne connaît pas leur marge d'erreur (précises à 10 m, à 100 m ?) ; la précision d'une mesure de température n'est pas explicitée (+/- 0,1° ? +/- 1° ?)Lecture des métadonnées310
22
11721Jeu de données & métadonnéesToutesL'incertitude de la mesure n'est pas connue par le producteurLe producteur des données ne connaît pas la précision de ses mesuresSi l'incertitude de la mesure n'est pas documentée (ID18), demander au producteur3150
23
2222Jeu de données & métadonnéesToutesLa précision n'est pas cohérente avec la granularité : l'incertitude de la mesure est 100 fois supérieure à la granularitéDes coordonnées géographiques annoncent une granularité au cm alors que l'incertitude des appareils de mesure est de +/- 5 mètresLecture des métadonnées30
24
1923Jeu de données & métadonnéesToutesL'origine de certaines données est une entrée manuelle non contrôléeLe risque est d'obtenir 25 orthographes de "Saint-André-des-Arts"Ouvrir le jeu de données et parcourir : des données sont-elles manifestement entrées à la main ?330
25
2024Jeu de données & métadonnéesToutesLes données proviennent d'un processus de reconnaissance automatique dont la marge d'erreur est globalement bonne mais localement problématique (OCR, reconnaissance de forme, géocodage, etc.)OCR ;
reconnaissance automatique des visages (va dépendre de la qualité de la lumière de la prise de vue, de la couleur des personnes concernées (c'est encore un problème en 2016)) ; etc.
Ouvrir le jeu de données et parcourir : des données sont-elles manifestement issues d'un processus de reconnaissance automatique ?33
26
2125Jeu de données & métadonnéesToutesL'échantillon est biaiséCertaines populations sont absentes, sur-représentées ou sous-représentées ; les données subissent une forte variation saisonièreWTFcsv30
27
2326Jeu de données & métadonnéesToutesLe process de signalement d'erreur et d'échange avec le producteur n'est pas explicitéAucune forme de contact n'est donnéeLecture des métadonnées210* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
28
2427Jeu de données & métadonnéesToutesLe process de signalement d'erreur et d'échange avec le producteur n'existe pas ou bien il est défaillantLe producteur ne répond pas aux questionsDemander au producteur150
29
2528Jeu de données & métadonnéesToutesLa disponibilité de la donnée n'est pas documentée (temps pendant lequel la donnée est accessible par rapport au temps total souhaité, généralement exprimé en pourcentage) L'utilisateur ne sait pas si la qualité de service est de 95% ou 99,99%. Si le système qui héberge la donnée est régulièremment inacessible (maintenance, etc.), les usagers devraient en être informé pour savoir si leur usage en est impactéLecture des métadonnées1https://fr.wikipedia.org/wiki/Disponibilit%C3%A9
30
2629Jeu de données & métadonnéesToutesLa disponibilité de la donnée n'est pas mesuréeLe producteur ne sait pas si la qualité de service est de 95% ou 99,99 alors que tel futur usage est critiqueDemander au producteur150https://fr.wikipedia.org/wiki/Disponibilit%C3%A9
31
11630Jeu de données & métadonnéesToutesLe mode d'accès à la donnée est un frein à l'usage (temps d'accès, droit d'accès long et complexe, droit d'accès limité)La requête d'une donnée "temps réel" met plus de 40 secondes ; l'accès à la donnée nécessite un certificat de sécurité long à obtenir ; l'architecture du site ne permet pas à un robot de télécharger les actualisations des données* Tester l'accès aux données
* Tester la récupération des données via un outil automatisable (commande wget par exemple)
251
32
2731Jeu de données & métadonnéesToutesLa mesure de la qualité n'est pas documentéeDes contrôles qualité existent (amont ou aval) mais ils ne sont pas explicités si bien qu'on ne peut savoir si tel champ est fiable ou nonLecture des métadonnées
33
2832Jeu de données & métadonnéesToutesLa qualité de la donnée n'est pas mesurable à travers des contrôles formelsIl n'existe pas de méthode de contrôle permettant de dire si la syntaxe de ce champ est bonneDemander au producteur0
34
2933Jeu de données & métadonnéesToutesLa qualité de la données n'est pas mesuréeAucune méthode de contrôle n'est mise en oeuvre pour mesurer la qualité des donnéesDemander au producteur ou à l'éditeur3150
35
3034Jeu de données & métadonnéesToutesUne entité possède plusieurs identifiants0Exemple que me prend Simon sur les Asso qui ont à la fois un numéro d'asso et un code SIREN.
36
3235Jeu de données & métadonnéesToutesLe nom ou titre du jeu de données est vague, ambigu ou trop complexe : titre de la notice éditoriale, nom donné dans les métadonnées ou dans la documentation (pas le nom du fichier)* "Résultat des élections" : lesquelles ? où ? quand ?
* "Résultats des élections à Montréal" : il existe 6 communes appelées Montréal dans le monde...
Lecture des métadonnées, de la documentation et/ou de la fiche de présentationoui110
37
3336Jeu de données & métadonnéesDateManque de métadonnées : fourchette temporelle non explicitéeDes dates figurent dans le jeu mais aucune métadonnée ne peut confirmer la fourchette attendue de ces dates. Exemple : Trésorerie du 01/02/2010 au 24/11/2016.Lecture des métadonnées210* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
38
3437Jeu de données & métadonnéesDateManque de métadonnées : zone spatiale non explicitéeDes coordonnées figurent dans le jeu mais aucune métadonnée ne peut confirmer la zone d’appartenance attendue pour ces points.Lecture des métadonnées210* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
39
3538Jeu de données & métadonnéesNombreManque de métadonnées : fourchette non spécifiéeOn peut attendre d’un nombre qu’il soit compris entre une valeur minimum et une valeur maximum ; par exemple l'âge d'une personne devrait toujours être entre 0 et 130 voir 18 et 70 selon les cas.Lecture des métadonnées210* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
40
3639Jeu de données & métadonnéesBooléenManque de métadonnées : le fait que le champ soit un booléen n’est pas spécifiéLecture des métadonnées210* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
41
3740Jeu de données & métadonnéesBooléenManque de métadonnées : le format du booléen n’est pas spécifiéOn ne sait pas à quelles valeurs s’attendre : “vrai”-”faux” ou “oui”-”non”Lecture des métadonnées210* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
42
3841Jeu de données & métadonnéesToutesManque de métadonnées : processus et contexte de production non explicitésOn ne sait pas si une mesure vient d'un capteur ou d'une mesure manuelleLecture des métadonnéesoui10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
43
3942Jeu de données & métadonnéesToutesManque de métadonnées : la fraicheur des données n'est pas explicité :
* le délai entre le réel et la mise en base de la donnée
* le délai entre le réel et la publication de la donnée
Il n'est pas dit si telle information sur une grossesse va mettre plus de neuf avant d'arriver au réutilisateurLecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
44
4043Jeu de données & métadonnéesToutesManque de métadonnées : la langue des textes n'est pas spécifiéeLecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
45
4144Jeu de données & métadonnéesDateMétadonnées imprécises : le format de date n'est pas spécifiéFormat américain ? anglais ? européen ? etc.Lecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
46
4245Jeu de données & métadonnéesNombreMétadonnées imprécises : unités non spécifiéesOn ne dit pas si colonne "hauteur" est en cm ou dmLecture des métadonnéesoui110* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
47
4346Jeu de données & métadonnéesCoordonnéesMétadonnées imprécises : système de coordonnées non spécifiéLa documentation n'indique pas si les coordonnées sont en WGS 84, Lambert ou un autre systèmeLecture des métadonnées10* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
Redondant avec "Document : Le process d'acquisition n'est pas connu"
48
4447Jeu de données & métadonnéesToutesMétadonnées imprécises : nom de colonnes ambigus"Emplacement" ne dit rien sur la donnée attendue : une adresse ? "en haut" ? "devant" ? etc.Lecture des métadonnéesoui1* Produire les métadonnées
* Faire renseigner ou valider les métadonnées par le producteur
49
4548Jeu de données & métadonnéesToutesMétadonnées faussesLecture des métadonnées
50
4649Jeu de données & métadonnéesToutesLa taille maximale d’un champ dépasse celle qui est spécifiée dans la documentationLa colonne "âge" spécifie une longueur de 3 caractères maximum et certaines valeurs sont des 4 caractères ou plusLecture des métadonnées et des donnéescsvgrep -c colonne_x -r ".{25,}" file.csv | csvlook
csvsql --query "SELECT MAX(LENGTH(mois)) FROM file" file.csv
331
51
4750Jeu de données & métadonnéesToutesL'ordre des colonnes ne correspond pas à l'ordre donné dans la documentationLa documentation donne Prénom;Nom;Âge;Profession alors que le jeu se présente sous la forme Nom;Prénom;Âge;ProfessionLecture des métadonnées et des données3305
52
4851Jeu de données & métadonnéesCoordonnéesLes coordonnées ne sont pas au format WGS 84 Les coordonnées sont au format Lambert II nécessitant une conversion des points pour des usages mobile liés à des GPS grand publicLecture des métadonnées et des données33
53
4952Jeu de données & métadonnéesChaîne alphaLes codes pays ne sont pas au format ISO 3166L'Allemagne est noté "ALL" alors qu'il existe un code ISO employé internationalementLecture des métadonnées et des données231
54
5053Jeu de données & métadonnéesChaîne alphaLes codes de langues ne sont pas au format ISO 639Le français est noté "F" ou "français" en lieu et place de "fr"Lecture des métadonnées et des données231
55
5154Jeu de données & métadonnéesDateLes dates ne sont pas au format ISO 8601La date est notée "01/01/2016"Lecture des métadonnées et des données231
56
5255Jeu de données & métadonnéesChaîne alphaLes monnaies ne sont pas au format ISO 4217Le franc suisse est noté FSLecture des métadonnées et des données331https://fr.wikipedia.org/wiki/ISO_4217
57
5356SyntaxeChaîne alphaErreurs syntaxiques : espace(s) au début ou à la fin du champ" Pierre" au lieu de "Pierre"Rechercher les cas à partir d'une regexpperl -F/,/ -alne 'print if 1..1;print if m/^ .*|[^ ]*$/i;' file.csv | csvsort | csvlook31
58
5457SyntaxeChaîne alphaErreurs syntaxiques : bug syntaxique dans les strates du SI : le cas de l'apostrophe"N\'Diaye" à la place de N'DiayeRechercher "\'"csvgrep -c colonne_x,colonne_y -m \' file.csv11Remplacer \' par '
59
5558SyntaxeNombreErreurs syntaxiques : syntaxe des numéros ou nombres en tous genres"45€" au lieu de "45"; "1,000,000" au lieu de "1000000"30
60
5659SyntaxeChaîne alphaErreurs syntaxiques : codes (code INSEE, code postal, SIRET, SIREN, n° de Sécu, ISBN, ISSN, IBAN, BIC, code ROM, indicatif du pays, code APE, code NAF, etc.)7100 au lieu de 07100 pour un code postalBâtir la regexp relative au code attendu et tester.csvgrep -c colonne_x -r "(^(\d\d\d\d\d))" file.csv | csvsort | csvlook # code postal51
61
5760SyntaxeChaîne alphaErreurs syntaxiques : sigles et abréviations"SNCF", "S. N. C. F.", "S.C.N.F." ?
"Boul" ou "Boul." ou "Bld" ?
Classer la colonne date par ordre alphabétique permet de rapidement voir les problèmes de syntaxe5
62
5861SyntaxeBooléenErreurs syntaxiques : booléen“V” au lieu de “1” selon la spécification du booléenRegarder WTFcsv sur les colonnes de booléenscsvstat -c col_booleen --freq file.csv11
63
5962SyntaxeChaîne alphaErreurs syntaxiques : email, urllaurent.dupont@wanadoo@fr1
64
6063SyntaxeDateErreur syntaxique sur la date2016/09/30 au lieu de 2016-09-30 attenduClasser la colonne date par ordre alphabétique permet de rapidement voir les problèmes de syntaxecsvcut -c colonne_x file.csv | csvsort | csvlook11
65
6164SyntaxeChaîne alphaIncohérences syntaxiques : syntaxe des noms propres"de La Tour" ou "La Tour (de)" ?51
66
6265SyntaxeNombreIncohérences syntaxiques : homogénéité de la syntaxe des numéros ou nombres en tous genresDans le même fichier nous avons pour des chiffres parfois "1000,00" et parfois
"100.000.00"
51
67
6366SyntaxeChaîne alphaIncohérences syntaxiques : l’usage du pluriel ou du singulierRechercher les pluriels à l'aide de motifs d'expressions régulières (?)51
68
6467SémantiqueChaîne alphaPlusieurs termes sont utilisés pour un même sensParfois on lit "Daesh", parfois "Isis" et parfois "EI" ; ou bien "agent" ou "commercial" ; etc.Trier le champ concerné par ordre alphabétique et regarder les valeurs (?)5https://fr.wikipedia.org/wiki/R%C3%A9gionalisation_de_logiciel
69
6568SémantiqueChaîne alphaCertains termes sont mal régionalisés ou traduits dans la langue attendueDans un fichier où tout est en français, si l'on a "Grande-Bretagne" on devrait avoir "États-Unis" et pas "USA" qui est un terme anglaisRepérer les chaînes et lancer le correcteur d'orthographe dans la langue désirée (?)51https://fr.wikipedia.org/wiki/R%C3%A9gionalisation_de_logiciel
70
6669SémantiqueChaîne alphaCertains termes, valeurs utilisées sont vieillis, inusités, cryptiques ou incompréhensiblesTrier le champ concerné par ordre alphabétique et regarder les valeurs (?)30
71
6770SémantiqueChaîne alphaLes abréviations ou sigles ne sont pas explicitésWikipédia fournit des listes de très nombreux sigles : https://fr.wikipedia.org/wiki/SigleTrier le champ concerné par ordre alphabétique et regarder les valeurs (?)3
72
6871SémantiqueChaîne alpha|Nombre|Date|coordonnéesLa valeur nulle est remplacée par une autre chaîne : zéro ou "-" ou "null" ou "1970-00-00" ou 0°00'00.0"N+0°00'00.0"E0°00'00.0"N+0°00'00.0"E est un problème car ce point existe mais il est placé en plein AtlantiqueTrier le champ concerné par ordre alphabétique et regarder les valeurs (?)31
73
6972SémantiqueToutesInversion dans un couple de données"Dupont Jean" au lieu de "Jean Dupont'Repérer les couples de données et classer les colonnes par ordre alphabétique pour repérer une éventuelle inversion (?)TODO : si une chaîne de la colonne_x est présent 3 fois dans la colonne_Y et inversement alors il y a suspicion d'inversion ?30Le producteur peut avoir saisi Prénom Nom en étant persuadé de cet ordre. Ce problème survient également pour des Prénom-Noms d'origine culturelle différente (les chinois utilisent Nom-Prénom)
74
7073SémantiqueChaîne alphaL'absence de lettres accentuées peut poser des problèmes de sens"JUPE TUE LA FRANCE GAGNE"Rechercher des colonnes alpha qui ne possèdent pas d'accentegrep "[àâçéèêëù]" file.csv | wc -l11les accents sont signifiants en Français
75
7174SémantiqueChaîne alpha|NombreErreur sémantique manifesteUtilisation de "M" en lieu et place de "H" pour signifier un homme ; 69 pour le département en lieu et place du nom "Rhône"Rechercher toutes les valeurs d'une colonne, les dédoublonner et analyser les résultatscsvcut -c colonne1 file.csv | sort | uniq50
76
7275SémantiqueCoordonnéesErreur de système de coordonnéesCoordonnées en Lambert II au lieu de WGS 84 spécifié dans les métadonnées5
77
7376SémantiqueCoordonnéesLes coordonnées géographiques sont données en degrés, minutes, secondes et non en degrés décimals, ce qui complique leur manipulation23°56'33'' ou bien 23°56'33''E en lieu et place de la forme décimale 23,9756Regarder toutes les colonnes représentant des coordonnées31
78
7477SémantiqueDateLe format de la date est celui d'un autre pays ou d'une autre culture09/08/2016 au lieu de 08/09/2013 pour le 8 septembre 2016 (la syntaxe est correcte mais le sens est incorrect)Rechercher toutes les valeurs d'une colonne, les dédoublonner, les trier et analyser les résultatscsvgrep -c colonne1 -r "\d?\d\/3\d" file.csv31
79
7578SémantiqueChaîne alpha|booléenListe de réponses fermée mal conçue : réponse "vrai" ou "faux" exclusivement alors que "sans réponse" ou autres pourraient convenir"Vous êtes plutôt d'accord avec telle assertion : vrai-faux". "Ne se prononce pas" devrait pouvoir être une réponse pertinente.Détecter les colonnes ne possédant que deux valeurs et se poser la question30
80
7679SémantiqueChaîne alphaListe de réponses fermée mal conçue : présence de la réponse "Autre" ou "Divers" très fréquente"Quel est votre ville favorite : Marseille, Paris, Autre"Rechercher les chaînes "Autre" et "Divers"perl -F/,/ -alne 'print if 1..1;print if m/Autre|Divers/i;' file.csv | csvsort | csvlook11Dans certains cas, les réponses "Autre" ou "Divers" peut être parfaitement justifiée.
81
7780Morpho-syntaxiqueToutesExprimer une donnée à travers un code difficile à manipulerMise en forme pour exprimer une donnée : couleur, gras, etc.Parcourir visuellement l'ensemble du fichier50
82
7881Morpho-syntaxiqueToutesautres ?Certains fichiers possèdent des cellules fusionnées ; des données sont ajoutées sous forme de commentaires ; etc.Parcourir visuellement l'ensemble du fichier5
83
7982PertinenceChaîne alpha|NombreAberration* 197 ans (pour l'âge d'une personne)
* Général de Gaulle comme personne participant à un sondage
* Un classement des champs par ordre alphabétique permet de localiser des grandeurs aberrantes.
* Tester que les données vérifient la loi de Benford.
* WTFcsv.
30
84
8083PertinenceChaîne alpha|NombreDoute très raisonnable, valeurs inexplicables20 participants de plus de 110 ans* Rechercher les valeurs extrêmes de chaque colonne et s'interroger.
* WTFcsv ?
oui51
85
8184PertinenceChaîne alphaCertaines valeurs sont suspectes : 0000 ou xxxxxxxxxxxxx (à compléter)-perl -F/,/ -alne 'print if 1..1;print if m/(000|xxx)/i;' file.csv | csvsort | csvlook3
86
8285PertinenceNombreCertaines valeurs sont suspectes : suites de chiffres comme 9999 ou 12345Des suites de 9999 ; nombreuses valeurs "12345" (détailler)Recherche des chaînes "99*" et "123*"perl -F/,/ -alne 'print if 1..1;print if m/999|12345|00/i;' file.csv | csvsort | csvlook31
87
8386PertinenceDateCertaines valeurs sont suspectes : il existe des dates en 1900, 1904, 1969, 1970-Recherche des chaînes "1900*", "1904*", "1969*", "1970*"perl -F/,/ -alne 'print if 1..1;print if m/1900|1904|1969|1970/;' file.csv | csvsort | csvlook31
88
8487PertinenceCoordonnéesCertaines valeurs sont suspectes : il existe des coordonnées comme 0°00'00.0"N+0°00'00.0"E0°00'00.0"N+0°00'00.0"E est une valeur suspecte car c’est un point en plein milieu de l’AtlantiquePOI : placer tous les POI sur une carte pour voir si certains sont hors périmètrecsvgrep -c colonne_x -r "(0°00\'00).*" file.csv | csvsort | csvlook31
89
8588PertinenceToutesLa source n'est pas crédible (incompétent, juge et partie, etc.)15000 manifestants selon les organisateursQuestionner la crédibilité de la source : est-elle compétente pour collecter ces données ? A-t-elle un intérêt partisan à faire parler les données dans une certaine direction ?oui30Autres exemples : chiffres du chomage (?), chiffres "sortis du chapeau" par les politiques, résultats d'audiences ou financiers communiqués par l'acteur concerné par ces chiffres, ...
90
8689PertinenceToutesLes données ont été hackées ou détournéesLa source est crédible mais certains producteurs indirects ont pu agir pour que certaines données soient sur-représentées (sondage, etc.)* La sur-représentation d'un profil ou des valeurs suspectes doivent conduire à s'interroger
* Tester que les données vérifient la loi de Benford.
300Exemple de l'affaire Clearstream. Affaire Hashley-Madison (?). Voir le type de problème "Le process d'acquisition n'est pas connu"
91
8790RéglementationToutesIdentification explicite de personnes sans déclaration CNILPrénom Nom ou numéro de tél.Détecter des prénoms sur la base d'un dictionnaire est-il un bon indicateur ?oui
92
8891RéglementationToutesIdentification possible de personnesDate et lieu de naissanceParcourir le fichier dans son ensemble suffit-il ?oui
93
8992RéglementationChaînes alphaIl existe des jugements de valeurs à propos d'individus"Client chiant", etc.Rechercher des mots "interdits" comme "chiant", "stupide", "idiot", "connard/connasse", "enculé", etc.51
94
9093RéglementationChaînes alphaIl existe des données de santé non anonymisées alors que les personnels qui les consultent n'y sont pas habilités"Ne peut pas nous recevoir le mercredi matin car elle fait sa dialyse"Rechercher des mots "interdits" comme "dialyse", "cancer", etc.51
95
9194RéglementationToutesDonnées d'origine ethnique ou relative à la religion des personnes"Ne répond pas au téléphone le samedi (shabbat)"Rechercher des mots qui peuvent être des indicateurs comme "caucasien", "chrétien", "juif", "musulman", etc.oui30
96
9295RéglementationToutesDonnées relatives aux opinions politiques, philosophiques ou à l'appartenance syndicale"Lié au parti pirate"Rechercher des mots qui peuvent être des indicateurs comme le nom de partis politiques, de courants de pensée, etc.oui30
97
9396RéglementationToutesDonnées relatives à la vie sexuelle ou au moeurs"Ménage à 3"Rechercher des mots qui peuvent être des indicateurs comme "sex", "homo", etc.oui30
98
9497RéglementationToutesDonnées tierces soumises à licence d'usageLe fichier publié en Open Data utilise le géocodage de l'API de GoogleLire les métadonnées ; en cas de doute, demander explicitement au producteur.oui5
99
9598RéglementationChaîne alphaDonnées relevant de la propriété littéraire et artistique sans autorisation d’usage : description textuellesLa description littéraire d’une chose est soumise à des droitsRechercher les chaînes de plus 100 (?) caractère et évaluer si la rédaction dépasse un simple caractère factuel (?)3
100
9699RéglementationbinaireDonnées relevant de la propriété littéraire et artistique sans autorisation d’usage : images ou fichiers multimédiaLes images d’une base de données sont soumises à des droitsLe jeu de données comprend-il des images ? Le droit d'usage de ces images est-il explicité ? Ce droit pose-t-il problème pour des usages ultérieurs ?3