A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | AB | AC | AD | AE | AF | AG | AH | AI | ||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | ID | N° d'ordre | Domaine du problème | Types de données concernées | Type de problème | Exemple | Détecter le problème | Ligne de commande pour le contrôle | Réduit considérablement l'usage des données | Niveau d'importance du problème | Temps d'analyse en min | Analyse semi-automatisable | Solution | Temps de traitement | Remarques | |||||||||||||||||||||
2 | 1 | 1 | Jeu de données & métadonnées | Toutes | Le jeu de données est dans un format "image" ne permettant pas de manipuler les données | Le jeu de données est un fichier image au format JPEG ou PDF. | Ouvrir le fichier et tenter de copier/coller les données | oui | 1 | 1 | 1 | * Demander au producteur une version qui permette de manipuler les données (CSV, Excel, etc.) * Essayer une phase d'OCR du document | ||||||||||||||||||||||||
3 | 2 | 2 | Jeu de données & métadonnées | Toutes | Le jeu de données est dans un format non spécifiquement adapté aux données : PDF, Word, ODF, epub, HTML, SVG, etc. | Le jeu de données est un fichier HTML. | Déterminer le format du fichier | oui | 1 | 1 | 1 | Dans certains cas la méthode du scrapping est une solution. | Les formats PDF ou de traitement de texte rendent l'exploitation des données difficiles. | |||||||||||||||||||||||
4 | 3 | 3 | Jeu de données & métadonnées | Toutes | Le format du jeu de données n'est pas précisé (fichier CSV, TSV, etc.) | l'extension du jeu de données ne permet pas de savoir quel logiciel permet de l'ouvrir et l'éditeur n'a pas fourni d'indication complémentaire | Essayer d'ouvrir le fichier ? | 1 | 1 | 0 | * Demander au producteur * Rétro-documenter le format | |||||||||||||||||||||||||
5 | 31 | 4 | Jeu de données & métadonnées | Toutes | La documentation et les métadonnées sont quasi inexistantes voire absentes | La documentation tient sur 5 lignes alors que le fichier est très complexe | Lecture des métadonnées | oui | 1 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | C'est important de voir ça très en amont : si l'on veut corriger cela, certains points de contrôle participeront à la documentation | |||||||||||||||||||||||
6 | 115 | 5 | Jeu de données & métadonnées | Toutes | La documentation et les métadonnées sont d'un usage difficile (doc papier, doc au format PDF image, doc uniquement en anglais, etc.) | La documentation est fourni sous forme de PDF image : les usagers ne peuvent pas rechercher des termes pour y naviguer rapidement | Consultation de la doc et des métadonnées | 1 | 1 | 0 | * Demander au producteur | |||||||||||||||||||||||||
7 | 4 | 6 | Jeu de données & métadonnées | Toutes | La licence du jeu de données ne nous permet pas de l'utiliser | Le jeu de données est un fichier commercial que l'on n'a pas acheté | En cas de doute, demander au producteur d'où viennent les données | 1 | 15 | 0 | ||||||||||||||||||||||||||
8 | 5 | 7 | Jeu de données & métadonnées | Toutes | Le format du jeu de données n'est pas ouvert | Le fichier est au format .xls ou .xlsx | Ne pas seulement se baser sur l'extension mais ouvrir également le fichier | file nom.du.fichier | 1 | 1 | 1 | * Vérifier que le document existe dans un format ouvert * Convertir le document dans un format ouvert | ||||||||||||||||||||||||
9 | 6 | 8 | Jeu de données & métadonnées | Toutes | Le format du jeu de données ne permet pas d'ouvrir le fichier dans des outils très répandus (Excel, Notepad...) | Le fichier au format .csv s'ouvre mal dans Excel, outil le plus répandu pour ouvrir des tableaux | Essayer d'ouvrir le fichier ? | 1 | 1 | 1 | ||||||||||||||||||||||||||
10 | 7 | 9 | Jeu de données & métadonnées | Toutes | L'encodage du fichier n'est pas spécifié (ISO-8859-1, UTF8, etc.) | Le fichier contient des caractères ésotériques mais on ne sait pas s'il s'agit d'un problème d'encodage | Lecture des métadonnées | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | ||||||||||||||||||||||||||
11 | 8 | 10 | Jeu de données & métadonnées | Toutes | L'encodage n'est pas en UTF-8 : ce dernier devient la norme de facto et d'autres encodages peuvent engendrer des problèmes | L'encodage est en ISO-8859-1 | Ouvrir le fichier avec un éditeur qui spécifie l'encodage | file file.csv | iconv -f ISO-8859-1 -t UTF-8 ./caracteristiques_2015.csv > caracteristiques_2015_rev1.csv | |||||||||||||||||||||||||||
12 | 9 | 11 | Jeu de données & métadonnées | Toutes | L'encodage n'est pas homogène | Certaines données sont correctement encodées et d'autres contiennent des caractères ésotériques | Ouvrir le fichier et parcourir visuellement les données ; rechercher quelques chaînes comme "é" ou "?" ou "?t?" ou "g?n?ral" etc. | perl -F/,/ -alne 'print if 1..1;print if m/([a-z]\?[a-z]|é)/i;' file.csv | csvsort | csvlook | ||||||||||||||||||||||||||||
13 | 10 | 12 | Jeu de données & métadonnées | Toutes | Le fichier est mal formé | Pour certaines lignes, parfois une colonne manque, ou, le fichier cvs comporte des "virgule" non formatées et empêche l'ouverture correcte du fichier | Ouvrir le fichier, trier la dernière colonne du fichier et regarder le résultat | csvclean --dry-run file.csv | oui | 1 | 1 | 1 | ||||||||||||||||||||||||
14 | 11 | 13 | Jeu de données & métadonnées | Toutes | Le jeu de données concernant des horaires de mode de transport ne possède pas de version au format GTFS | Le fichier n'est pas au format GTFS | 2 | 1 | 1 | |||||||||||||||||||||||||||
15 | 12 | 14 | Jeu de données & métadonnées | Toutes | Le jeu de données concernant des œuvres n’est pas au format Dublin Core | Le fichier n'est pas au format Dublin Core | 2 | 1 | 1 | |||||||||||||||||||||||||||
16 | 13 | 15 | Jeu de données & métadonnées | Toutes | Le jeu de données utilise une norme peu accessible au plus grand nombre (coût, complexité) | Le jeu de données est au format TRIDENT | 2 | 1 | 0 | |||||||||||||||||||||||||||
17 | 14 | 16 | Jeu de données & métadonnées | Toutes | Le process d'acquisition n'est pas connu | Wiki leaks | Lecture des métadonnées | 2 | 1 | 0 | Évaluer le process et vérifier un échantillon de données | Redondant avec "Métadonnées imprécises : process et contexte de production non explicités" ? | ||||||||||||||||||||||||
18 | 15 | 17 | Jeu de données & métadonnées | Toutes | L'échantillon n'est pas documenté | L'échantillon semble représentatif mais on ne peut pas vérifier qu'il le soit bien, puisque ce dernier n'est pas documenté | Lecture des métadonnées | 2 | 1 | 0 | ||||||||||||||||||||||||||
19 | 16 | 18 | Jeu de données & métadonnées | Toutes | Le format d'un des champs n'est pas documenté, si bien qu'on ne peut comprendre ce qu'il contient ou bien contrôler ses valeurs | * La date est parfois exprimée par le nombre de secondes depuis 1970 ; cette donnée est difficile à comprendre. * Un jeu de données contient un champ "Image" en binaire, dont le format n'est pas spécifié. | Lecture des métadonnées et ouverture du fichier : le format champ binaire est-il documenté ? | 2 | 3 | 0 | * Demander au producteur * Rétro-documenter le format | |||||||||||||||||||||||||
20 | 17 | 19 | Jeu de données & métadonnées | Toutes | La taille maximale d’un champ n’est pas documentée | On ne sait pas si un code peu dépasser 10 caractères et si certaines valeurs sont donc fausses | Lecture des métadonnées | 2 | 3 | 0 | * Demander au producteur * Rétro-documenter le format | |||||||||||||||||||||||||
21 | 18 | 20 | Jeu de données & métadonnées | Toutes | Pour tel champ, l'incertitude de la mesure n'est pas documentée (appelée aussi "précision", exprimée en % ou bien "à plus plus ou moins X unités près") | Des coordonnées GPS sont indiquées mais on ne connaît pas leur marge d'erreur (précises à 10 m, à 100 m ?) ; la précision d'une mesure de température n'est pas explicitée (+/- 0,1° ? +/- 1° ?) | Lecture des métadonnées | 3 | 1 | 0 | ||||||||||||||||||||||||||
22 | 117 | 21 | Jeu de données & métadonnées | Toutes | L'incertitude de la mesure n'est pas connue par le producteur | Le producteur des données ne connaît pas la précision de ses mesures | Si l'incertitude de la mesure n'est pas documentée (ID18), demander au producteur | 3 | 15 | 0 | ||||||||||||||||||||||||||
23 | 22 | 22 | Jeu de données & métadonnées | Toutes | La précision n'est pas cohérente avec la granularité : l'incertitude de la mesure est 100 fois supérieure à la granularité | Des coordonnées géographiques annoncent une granularité au cm alors que l'incertitude des appareils de mesure est de +/- 5 mètres | Lecture des métadonnées | 3 | 0 | |||||||||||||||||||||||||||
24 | 19 | 23 | Jeu de données & métadonnées | Toutes | L'origine de certaines données est une entrée manuelle non contrôlée | Le risque est d'obtenir 25 orthographes de "Saint-André-des-Arts" | Ouvrir le jeu de données et parcourir : des données sont-elles manifestement entrées à la main ? | 3 | 3 | 0 | ||||||||||||||||||||||||||
25 | 20 | 24 | Jeu de données & métadonnées | Toutes | Les données proviennent d'un processus de reconnaissance automatique dont la marge d'erreur est globalement bonne mais localement problématique (OCR, reconnaissance de forme, géocodage, etc.) | OCR ; reconnaissance automatique des visages (va dépendre de la qualité de la lumière de la prise de vue, de la couleur des personnes concernées (c'est encore un problème en 2016)) ; etc. | Ouvrir le jeu de données et parcourir : des données sont-elles manifestement issues d'un processus de reconnaissance automatique ? | 3 | 3 | |||||||||||||||||||||||||||
26 | 21 | 25 | Jeu de données & métadonnées | Toutes | L'échantillon est biaisé | Certaines populations sont absentes, sur-représentées ou sous-représentées ; les données subissent une forte variation saisonière | WTFcsv | 3 | 0 | |||||||||||||||||||||||||||
27 | 23 | 26 | Jeu de données & métadonnées | Toutes | Le process de signalement d'erreur et d'échange avec le producteur n'est pas explicité | Aucune forme de contact n'est donnée | Lecture des métadonnées | 2 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | |||||||||||||||||||||||||
28 | 24 | 27 | Jeu de données & métadonnées | Toutes | Le process de signalement d'erreur et d'échange avec le producteur n'existe pas ou bien il est défaillant | Le producteur ne répond pas aux questions | Demander au producteur | 15 | 0 | |||||||||||||||||||||||||||
29 | 25 | 28 | Jeu de données & métadonnées | Toutes | La disponibilité de la donnée n'est pas documentée (temps pendant lequel la donnée est accessible par rapport au temps total souhaité, généralement exprimé en pourcentage) | L'utilisateur ne sait pas si la qualité de service est de 95% ou 99,99%. Si le système qui héberge la donnée est régulièremment inacessible (maintenance, etc.), les usagers devraient en être informé pour savoir si leur usage en est impacté | Lecture des métadonnées | 1 | https://fr.wikipedia.org/wiki/Disponibilit%C3%A9 | |||||||||||||||||||||||||||
30 | 26 | 29 | Jeu de données & métadonnées | Toutes | La disponibilité de la donnée n'est pas mesurée | Le producteur ne sait pas si la qualité de service est de 95% ou 99,99 alors que tel futur usage est critique | Demander au producteur | 15 | 0 | https://fr.wikipedia.org/wiki/Disponibilit%C3%A9 | ||||||||||||||||||||||||||
31 | 116 | 30 | Jeu de données & métadonnées | Toutes | Le mode d'accès à la donnée est un frein à l'usage (temps d'accès, droit d'accès long et complexe, droit d'accès limité) | La requête d'une donnée "temps réel" met plus de 40 secondes ; l'accès à la donnée nécessite un certificat de sécurité long à obtenir ; l'architecture du site ne permet pas à un robot de télécharger les actualisations des données | * Tester l'accès aux données * Tester la récupération des données via un outil automatisable (commande wget par exemple) | 2 | 5 | 1 | ||||||||||||||||||||||||||
32 | 27 | 31 | Jeu de données & métadonnées | Toutes | La mesure de la qualité n'est pas documentée | Des contrôles qualité existent (amont ou aval) mais ils ne sont pas explicités si bien qu'on ne peut savoir si tel champ est fiable ou non | Lecture des métadonnées | |||||||||||||||||||||||||||||
33 | 28 | 32 | Jeu de données & métadonnées | Toutes | La qualité de la donnée n'est pas mesurable à travers des contrôles formels | Il n'existe pas de méthode de contrôle permettant de dire si la syntaxe de ce champ est bonne | Demander au producteur | 0 | ||||||||||||||||||||||||||||
34 | 29 | 33 | Jeu de données & métadonnées | Toutes | La qualité de la données n'est pas mesurée | Aucune méthode de contrôle n'est mise en oeuvre pour mesurer la qualité des données | Demander au producteur ou à l'éditeur | 3 | 15 | 0 | ||||||||||||||||||||||||||
35 | 30 | 34 | Jeu de données & métadonnées | Toutes | Une entité possède plusieurs identifiants | 0 | Exemple que me prend Simon sur les Asso qui ont à la fois un numéro d'asso et un code SIREN. | |||||||||||||||||||||||||||||
36 | 32 | 35 | Jeu de données & métadonnées | Toutes | Le nom ou titre du jeu de données est vague, ambigu ou trop complexe : titre de la notice éditoriale, nom donné dans les métadonnées ou dans la documentation (pas le nom du fichier) | * "Résultat des élections" : lesquelles ? où ? quand ? * "Résultats des élections à Montréal" : il existe 6 communes appelées Montréal dans le monde... | Lecture des métadonnées, de la documentation et/ou de la fiche de présentation | oui | 1 | 1 | 0 | |||||||||||||||||||||||||
37 | 33 | 36 | Jeu de données & métadonnées | Date | Manque de métadonnées : fourchette temporelle non explicitée | Des dates figurent dans le jeu mais aucune métadonnée ne peut confirmer la fourchette attendue de ces dates. Exemple : Trésorerie du 01/02/2010 au 24/11/2016. | Lecture des métadonnées | 2 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | |||||||||||||||||||||||||
38 | 34 | 37 | Jeu de données & métadonnées | Date | Manque de métadonnées : zone spatiale non explicitée | Des coordonnées figurent dans le jeu mais aucune métadonnée ne peut confirmer la zone d’appartenance attendue pour ces points. | Lecture des métadonnées | 2 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | |||||||||||||||||||||||||
39 | 35 | 38 | Jeu de données & métadonnées | Nombre | Manque de métadonnées : fourchette non spécifiée | On peut attendre d’un nombre qu’il soit compris entre une valeur minimum et une valeur maximum ; par exemple l'âge d'une personne devrait toujours être entre 0 et 130 voir 18 et 70 selon les cas. | Lecture des métadonnées | 2 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | |||||||||||||||||||||||||
40 | 36 | 39 | Jeu de données & métadonnées | Booléen | Manque de métadonnées : le fait que le champ soit un booléen n’est pas spécifié | Lecture des métadonnées | 2 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | ||||||||||||||||||||||||||
41 | 37 | 40 | Jeu de données & métadonnées | Booléen | Manque de métadonnées : le format du booléen n’est pas spécifié | On ne sait pas à quelles valeurs s’attendre : “vrai”-”faux” ou “oui”-”non” | Lecture des métadonnées | 2 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | |||||||||||||||||||||||||
42 | 38 | 41 | Jeu de données & métadonnées | Toutes | Manque de métadonnées : processus et contexte de production non explicités | On ne sait pas si une mesure vient d'un capteur ou d'une mesure manuelle | Lecture des métadonnées | oui | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | |||||||||||||||||||||||||
43 | 39 | 42 | Jeu de données & métadonnées | Toutes | Manque de métadonnées : la fraicheur des données n'est pas explicité : * le délai entre le réel et la mise en base de la donnée * le délai entre le réel et la publication de la donnée | Il n'est pas dit si telle information sur une grossesse va mettre plus de neuf avant d'arriver au réutilisateur | Lecture des métadonnées | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | ||||||||||||||||||||||||||
44 | 40 | 43 | Jeu de données & métadonnées | Toutes | Manque de métadonnées : la langue des textes n'est pas spécifiée | Lecture des métadonnées | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | |||||||||||||||||||||||||||
45 | 41 | 44 | Jeu de données & métadonnées | Date | Métadonnées imprécises : le format de date n'est pas spécifié | Format américain ? anglais ? européen ? etc. | Lecture des métadonnées | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | ||||||||||||||||||||||||||
46 | 42 | 45 | Jeu de données & métadonnées | Nombre | Métadonnées imprécises : unités non spécifiées | On ne dit pas si colonne "hauteur" est en cm ou dm | Lecture des métadonnées | oui | 1 | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | ||||||||||||||||||||||||
47 | 43 | 46 | Jeu de données & métadonnées | Coordonnées | Métadonnées imprécises : système de coordonnées non spécifié | La documentation n'indique pas si les coordonnées sont en WGS 84, Lambert ou un autre système | Lecture des métadonnées | 1 | 0 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | Redondant avec "Document : Le process d'acquisition n'est pas connu" | |||||||||||||||||||||||||
48 | 44 | 47 | Jeu de données & métadonnées | Toutes | Métadonnées imprécises : nom de colonnes ambigus | "Emplacement" ne dit rien sur la donnée attendue : une adresse ? "en haut" ? "devant" ? etc. | Lecture des métadonnées | oui | 1 | * Produire les métadonnées * Faire renseigner ou valider les métadonnées par le producteur | ||||||||||||||||||||||||||
49 | 45 | 48 | Jeu de données & métadonnées | Toutes | Métadonnées fausses | Lecture des métadonnées | ||||||||||||||||||||||||||||||
50 | 46 | 49 | Jeu de données & métadonnées | Toutes | La taille maximale d’un champ dépasse celle qui est spécifiée dans la documentation | La colonne "âge" spécifie une longueur de 3 caractères maximum et certaines valeurs sont des 4 caractères ou plus | Lecture des métadonnées et des données | csvgrep -c colonne_x -r ".{25,}" file.csv | csvlook csvsql --query "SELECT MAX(LENGTH(mois)) FROM file" file.csv | 3 | 3 | 1 | |||||||||||||||||||||||||
51 | 47 | 50 | Jeu de données & métadonnées | Toutes | L'ordre des colonnes ne correspond pas à l'ordre donné dans la documentation | La documentation donne Prénom;Nom;Âge;Profession alors que le jeu se présente sous la forme Nom;Prénom;Âge;Profession | Lecture des métadonnées et des données | 3 | 3 | 0 | 5 | |||||||||||||||||||||||||
52 | 48 | 51 | Jeu de données & métadonnées | Coordonnées | Les coordonnées ne sont pas au format WGS 84 | Les coordonnées sont au format Lambert II nécessitant une conversion des points pour des usages mobile liés à des GPS grand public | Lecture des métadonnées et des données | 3 | 3 | |||||||||||||||||||||||||||
53 | 49 | 52 | Jeu de données & métadonnées | Chaîne alpha | Les codes pays ne sont pas au format ISO 3166 | L'Allemagne est noté "ALL" alors qu'il existe un code ISO employé internationalement | Lecture des métadonnées et des données | 2 | 3 | 1 | ||||||||||||||||||||||||||
54 | 50 | 53 | Jeu de données & métadonnées | Chaîne alpha | Les codes de langues ne sont pas au format ISO 639 | Le français est noté "F" ou "français" en lieu et place de "fr" | Lecture des métadonnées et des données | 2 | 3 | 1 | ||||||||||||||||||||||||||
55 | 51 | 54 | Jeu de données & métadonnées | Date | Les dates ne sont pas au format ISO 8601 | La date est notée "01/01/2016" | Lecture des métadonnées et des données | 2 | 3 | 1 | ||||||||||||||||||||||||||
56 | 52 | 55 | Jeu de données & métadonnées | Chaîne alpha | Les monnaies ne sont pas au format ISO 4217 | Le franc suisse est noté FS | Lecture des métadonnées et des données | 3 | 3 | 1 | https://fr.wikipedia.org/wiki/ISO_4217 | |||||||||||||||||||||||||
57 | 53 | 56 | Syntaxe | Chaîne alpha | Erreurs syntaxiques : espace(s) au début ou à la fin du champ | " Pierre" au lieu de "Pierre" | Rechercher les cas à partir d'une regexp | perl -F/,/ -alne 'print if 1..1;print if m/^ .*|[^ ]*$/i;' file.csv | csvsort | csvlook | 3 | 1 | ||||||||||||||||||||||||||
58 | 54 | 57 | Syntaxe | Chaîne alpha | Erreurs syntaxiques : bug syntaxique dans les strates du SI : le cas de l'apostrophe | "N\'Diaye" à la place de N'Diaye | Rechercher "\'" | csvgrep -c colonne_x,colonne_y -m \' file.csv | 1 | 1 | Remplacer \' par ' | |||||||||||||||||||||||||
59 | 55 | 58 | Syntaxe | Nombre | Erreurs syntaxiques : syntaxe des numéros ou nombres en tous genres | "45€" au lieu de "45"; "1,000,000" au lieu de "1000000" | 30 | |||||||||||||||||||||||||||||
60 | 56 | 59 | Syntaxe | Chaîne alpha | Erreurs syntaxiques : codes (code INSEE, code postal, SIRET, SIREN, n° de Sécu, ISBN, ISSN, IBAN, BIC, code ROM, indicatif du pays, code APE, code NAF, etc.) | 7100 au lieu de 07100 pour un code postal | Bâtir la regexp relative au code attendu et tester. | csvgrep -c colonne_x -r "(^(\d\d\d\d\d))" file.csv | csvsort | csvlook # code postal | 5 | 1 | ||||||||||||||||||||||||||
61 | 57 | 60 | Syntaxe | Chaîne alpha | Erreurs syntaxiques : sigles et abréviations | "SNCF", "S. N. C. F.", "S.C.N.F." ? "Boul" ou "Boul." ou "Bld" ? | Classer la colonne date par ordre alphabétique permet de rapidement voir les problèmes de syntaxe | 5 | ||||||||||||||||||||||||||||
62 | 58 | 61 | Syntaxe | Booléen | Erreurs syntaxiques : booléen | “V” au lieu de “1” selon la spécification du booléen | Regarder WTFcsv sur les colonnes de booléens | csvstat -c col_booleen --freq file.csv | 1 | 1 | ||||||||||||||||||||||||||
63 | 59 | 62 | Syntaxe | Chaîne alpha | Erreurs syntaxiques : email, url | laurent.dupont@wanadoo@fr | 1 | |||||||||||||||||||||||||||||
64 | 60 | 63 | Syntaxe | Date | Erreur syntaxique sur la date | 2016/09/30 au lieu de 2016-09-30 attendu | Classer la colonne date par ordre alphabétique permet de rapidement voir les problèmes de syntaxe | csvcut -c colonne_x file.csv | csvsort | csvlook | 1 | 1 | ||||||||||||||||||||||||||
65 | 61 | 64 | Syntaxe | Chaîne alpha | Incohérences syntaxiques : syntaxe des noms propres | "de La Tour" ou "La Tour (de)" ? | 5 | 1 | ||||||||||||||||||||||||||||
66 | 62 | 65 | Syntaxe | Nombre | Incohérences syntaxiques : homogénéité de la syntaxe des numéros ou nombres en tous genres | Dans le même fichier nous avons pour des chiffres parfois "1000,00" et parfois "100.000.00" | 5 | 1 | ||||||||||||||||||||||||||||
67 | 63 | 66 | Syntaxe | Chaîne alpha | Incohérences syntaxiques : l’usage du pluriel ou du singulier | Rechercher les pluriels à l'aide de motifs d'expressions régulières (?) | 5 | 1 | ||||||||||||||||||||||||||||
68 | 64 | 67 | Sémantique | Chaîne alpha | Plusieurs termes sont utilisés pour un même sens | Parfois on lit "Daesh", parfois "Isis" et parfois "EI" ; ou bien "agent" ou "commercial" ; etc. | Trier le champ concerné par ordre alphabétique et regarder les valeurs (?) | 5 | https://fr.wikipedia.org/wiki/R%C3%A9gionalisation_de_logiciel | |||||||||||||||||||||||||||
69 | 65 | 68 | Sémantique | Chaîne alpha | Certains termes sont mal régionalisés ou traduits dans la langue attendue | Dans un fichier où tout est en français, si l'on a "Grande-Bretagne" on devrait avoir "États-Unis" et pas "USA" qui est un terme anglais | Repérer les chaînes et lancer le correcteur d'orthographe dans la langue désirée (?) | 5 | 1 | https://fr.wikipedia.org/wiki/R%C3%A9gionalisation_de_logiciel | ||||||||||||||||||||||||||
70 | 66 | 69 | Sémantique | Chaîne alpha | Certains termes, valeurs utilisées sont vieillis, inusités, cryptiques ou incompréhensibles | Trier le champ concerné par ordre alphabétique et regarder les valeurs (?) | 3 | 0 | ||||||||||||||||||||||||||||
71 | 67 | 70 | Sémantique | Chaîne alpha | Les abréviations ou sigles ne sont pas explicités | Wikipédia fournit des listes de très nombreux sigles : https://fr.wikipedia.org/wiki/Sigle | Trier le champ concerné par ordre alphabétique et regarder les valeurs (?) | 3 | ||||||||||||||||||||||||||||
72 | 68 | 71 | Sémantique | Chaîne alpha|Nombre|Date|coordonnées | La valeur nulle est remplacée par une autre chaîne : zéro ou "-" ou "null" ou "1970-00-00" ou 0°00'00.0"N+0°00'00.0"E | 0°00'00.0"N+0°00'00.0"E est un problème car ce point existe mais il est placé en plein Atlantique | Trier le champ concerné par ordre alphabétique et regarder les valeurs (?) | 3 | 1 | |||||||||||||||||||||||||||
73 | 69 | 72 | Sémantique | Toutes | Inversion dans un couple de données | "Dupont Jean" au lieu de "Jean Dupont' | Repérer les couples de données et classer les colonnes par ordre alphabétique pour repérer une éventuelle inversion (?) | TODO : si une chaîne de la colonne_x est présent 3 fois dans la colonne_Y et inversement alors il y a suspicion d'inversion ? | 3 | 0 | Le producteur peut avoir saisi Prénom Nom en étant persuadé de cet ordre. Ce problème survient également pour des Prénom-Noms d'origine culturelle différente (les chinois utilisent Nom-Prénom) | |||||||||||||||||||||||||
74 | 70 | 73 | Sémantique | Chaîne alpha | L'absence de lettres accentuées peut poser des problèmes de sens | "JUPE TUE LA FRANCE GAGNE" | Rechercher des colonnes alpha qui ne possèdent pas d'accent | egrep "[àâçéèêëù]" file.csv | wc -l | 1 | 1 | les accents sont signifiants en Français | |||||||||||||||||||||||||
75 | 71 | 74 | Sémantique | Chaîne alpha|Nombre | Erreur sémantique manifeste | Utilisation de "M" en lieu et place de "H" pour signifier un homme ; 69 pour le département en lieu et place du nom "Rhône" | Rechercher toutes les valeurs d'une colonne, les dédoublonner et analyser les résultats | csvcut -c colonne1 file.csv | sort | uniq | 5 | 0 | ||||||||||||||||||||||||||
76 | 72 | 75 | Sémantique | Coordonnées | Erreur de système de coordonnées | Coordonnées en Lambert II au lieu de WGS 84 spécifié dans les métadonnées | 5 | |||||||||||||||||||||||||||||
77 | 73 | 76 | Sémantique | Coordonnées | Les coordonnées géographiques sont données en degrés, minutes, secondes et non en degrés décimals, ce qui complique leur manipulation | 23°56'33'' ou bien 23°56'33''E en lieu et place de la forme décimale 23,9756 | Regarder toutes les colonnes représentant des coordonnées | 3 | 1 | |||||||||||||||||||||||||||
78 | 74 | 77 | Sémantique | Date | Le format de la date est celui d'un autre pays ou d'une autre culture | 09/08/2016 au lieu de 08/09/2013 pour le 8 septembre 2016 (la syntaxe est correcte mais le sens est incorrect) | Rechercher toutes les valeurs d'une colonne, les dédoublonner, les trier et analyser les résultats | csvgrep -c colonne1 -r "\d?\d\/3\d" file.csv | 3 | 1 | ||||||||||||||||||||||||||
79 | 75 | 78 | Sémantique | Chaîne alpha|booléen | Liste de réponses fermée mal conçue : réponse "vrai" ou "faux" exclusivement alors que "sans réponse" ou autres pourraient convenir | "Vous êtes plutôt d'accord avec telle assertion : vrai-faux". "Ne se prononce pas" devrait pouvoir être une réponse pertinente. | Détecter les colonnes ne possédant que deux valeurs et se poser la question | 3 | 0 | |||||||||||||||||||||||||||
80 | 76 | 79 | Sémantique | Chaîne alpha | Liste de réponses fermée mal conçue : présence de la réponse "Autre" ou "Divers" très fréquente | "Quel est votre ville favorite : Marseille, Paris, Autre" | Rechercher les chaînes "Autre" et "Divers" | perl -F/,/ -alne 'print if 1..1;print if m/Autre|Divers/i;' file.csv | csvsort | csvlook | 1 | 1 | Dans certains cas, les réponses "Autre" ou "Divers" peut être parfaitement justifiée. | |||||||||||||||||||||||||
81 | 77 | 80 | Morpho-syntaxique | Toutes | Exprimer une donnée à travers un code difficile à manipuler | Mise en forme pour exprimer une donnée : couleur, gras, etc. | Parcourir visuellement l'ensemble du fichier | 5 | 0 | |||||||||||||||||||||||||||
82 | 78 | 81 | Morpho-syntaxique | Toutes | autres ? | Certains fichiers possèdent des cellules fusionnées ; des données sont ajoutées sous forme de commentaires ; etc. | Parcourir visuellement l'ensemble du fichier | 5 | ||||||||||||||||||||||||||||
83 | 79 | 82 | Pertinence | Chaîne alpha|Nombre | Aberration | * 197 ans (pour l'âge d'une personne) * Général de Gaulle comme personne participant à un sondage | * Un classement des champs par ordre alphabétique permet de localiser des grandeurs aberrantes. * Tester que les données vérifient la loi de Benford. * WTFcsv. | 30 | ||||||||||||||||||||||||||||
84 | 80 | 83 | Pertinence | Chaîne alpha|Nombre | Doute très raisonnable, valeurs inexplicables | 20 participants de plus de 110 ans | * Rechercher les valeurs extrêmes de chaque colonne et s'interroger. * WTFcsv ? | oui | 5 | 1 | ||||||||||||||||||||||||||
85 | 81 | 84 | Pertinence | Chaîne alpha | Certaines valeurs sont suspectes : 0000 ou xxxxxxxxxxxxx (à compléter) | - | perl -F/,/ -alne 'print if 1..1;print if m/(000|xxx)/i;' file.csv | csvsort | csvlook | 3 | ||||||||||||||||||||||||||||
86 | 82 | 85 | Pertinence | Nombre | Certaines valeurs sont suspectes : suites de chiffres comme 9999 ou 12345 | Des suites de 9999 ; nombreuses valeurs "12345" (détailler) | Recherche des chaînes "99*" et "123*" | perl -F/,/ -alne 'print if 1..1;print if m/999|12345|00/i;' file.csv | csvsort | csvlook | 3 | 1 | ||||||||||||||||||||||||||
87 | 83 | 86 | Pertinence | Date | Certaines valeurs sont suspectes : il existe des dates en 1900, 1904, 1969, 1970 | - | Recherche des chaînes "1900*", "1904*", "1969*", "1970*" | perl -F/,/ -alne 'print if 1..1;print if m/1900|1904|1969|1970/;' file.csv | csvsort | csvlook | 3 | 1 | ||||||||||||||||||||||||||
88 | 84 | 87 | Pertinence | Coordonnées | Certaines valeurs sont suspectes : il existe des coordonnées comme 0°00'00.0"N+0°00'00.0"E | 0°00'00.0"N+0°00'00.0"E est une valeur suspecte car c’est un point en plein milieu de l’Atlantique | POI : placer tous les POI sur une carte pour voir si certains sont hors périmètre | csvgrep -c colonne_x -r "(0°00\'00).*" file.csv | csvsort | csvlook | 3 | 1 | ||||||||||||||||||||||||||
89 | 85 | 88 | Pertinence | Toutes | La source n'est pas crédible (incompétent, juge et partie, etc.) | 15000 manifestants selon les organisateurs | Questionner la crédibilité de la source : est-elle compétente pour collecter ces données ? A-t-elle un intérêt partisan à faire parler les données dans une certaine direction ? | oui | 3 | 0 | Autres exemples : chiffres du chomage (?), chiffres "sortis du chapeau" par les politiques, résultats d'audiences ou financiers communiqués par l'acteur concerné par ces chiffres, ... | |||||||||||||||||||||||||
90 | 86 | 89 | Pertinence | Toutes | Les données ont été hackées ou détournées | La source est crédible mais certains producteurs indirects ont pu agir pour que certaines données soient sur-représentées (sondage, etc.) | * La sur-représentation d'un profil ou des valeurs suspectes doivent conduire à s'interroger * Tester que les données vérifient la loi de Benford. | 30 | 0 | Exemple de l'affaire Clearstream. Affaire Hashley-Madison (?). Voir le type de problème "Le process d'acquisition n'est pas connu" | ||||||||||||||||||||||||||
91 | 87 | 90 | Réglementation | Toutes | Identification explicite de personnes sans déclaration CNIL | Prénom Nom ou numéro de tél. | Détecter des prénoms sur la base d'un dictionnaire est-il un bon indicateur ? | oui | ||||||||||||||||||||||||||||
92 | 88 | 91 | Réglementation | Toutes | Identification possible de personnes | Date et lieu de naissance | Parcourir le fichier dans son ensemble suffit-il ? | oui | ||||||||||||||||||||||||||||
93 | 89 | 92 | Réglementation | Chaînes alpha | Il existe des jugements de valeurs à propos d'individus | "Client chiant", etc. | Rechercher des mots "interdits" comme "chiant", "stupide", "idiot", "connard/connasse", "enculé", etc. | 5 | 1 | |||||||||||||||||||||||||||
94 | 90 | 93 | Réglementation | Chaînes alpha | Il existe des données de santé non anonymisées alors que les personnels qui les consultent n'y sont pas habilités | "Ne peut pas nous recevoir le mercredi matin car elle fait sa dialyse" | Rechercher des mots "interdits" comme "dialyse", "cancer", etc. | 5 | 1 | |||||||||||||||||||||||||||
95 | 91 | 94 | Réglementation | Toutes | Données d'origine ethnique ou relative à la religion des personnes | "Ne répond pas au téléphone le samedi (shabbat)" | Rechercher des mots qui peuvent être des indicateurs comme "caucasien", "chrétien", "juif", "musulman", etc. | oui | 3 | 0 | ||||||||||||||||||||||||||
96 | 92 | 95 | Réglementation | Toutes | Données relatives aux opinions politiques, philosophiques ou à l'appartenance syndicale | "Lié au parti pirate" | Rechercher des mots qui peuvent être des indicateurs comme le nom de partis politiques, de courants de pensée, etc. | oui | 3 | 0 | ||||||||||||||||||||||||||
97 | 93 | 96 | Réglementation | Toutes | Données relatives à la vie sexuelle ou au moeurs | "Ménage à 3" | Rechercher des mots qui peuvent être des indicateurs comme "sex", "homo", etc. | oui | 3 | 0 | ||||||||||||||||||||||||||
98 | 94 | 97 | Réglementation | Toutes | Données tierces soumises à licence d'usage | Le fichier publié en Open Data utilise le géocodage de l'API de Google | Lire les métadonnées ; en cas de doute, demander explicitement au producteur. | oui | 5 | |||||||||||||||||||||||||||
99 | 95 | 98 | Réglementation | Chaîne alpha | Données relevant de la propriété littéraire et artistique sans autorisation d’usage : description textuelles | La description littéraire d’une chose est soumise à des droits | Rechercher les chaînes de plus 100 (?) caractère et évaluer si la rédaction dépasse un simple caractère factuel (?) | 3 | ||||||||||||||||||||||||||||
100 | 96 | 99 | Réglementation | binaire | Données relevant de la propriété littéraire et artistique sans autorisation d’usage : images ou fichiers multimédia | Les images d’une base de données sont soumises à des droits | Le jeu de données comprend-il des images ? Le droit d'usage de ces images est-il explicité ? Ce droit pose-t-il problème pour des usages ultérieurs ? | 3 |