3.7 Récapitulatif du contrôle qualité des données
Avant d’être analysées, les données doivent d’abord être vérifiées afin de détecter d’éventuelles erreurs. Certaines erreurs peuvent ne pas être manifestes avant le début de l’analyse (par exemple : une valeur aberrante qui n’en est pas vraiment une mais qui est en réalité une coquille). Néanmoins, il est préférable de détecter le maximum d’erreurs possibles afin d’éviter de devoir faire machine arrière pendant l’analyse.
Vous pouvez retrouver la définition de qualité des données dans le glossaire de la Boîte à outils premiers pas en gestion des données programmes.
Le tableau ci-dessous répertorie certaines erreurs courantes et les techniques pour les corriger. Il est à noter que certaines de ces erreurs peuvent être atténuées au moyen de contrôles de saisie des données dans la plateforme de saisie.
Erreur | Description | Technique de correction |
---|---|---|
Valeurs aberrantes | Une valeur aberrante est une observation anormalement éloignée de toutes les autres valeurs mesurées. Il convient de procéder à un dépistage des éventuelles valeurs aberrantes dès la phase de traitement des données, afin de s’assurer qu’il s’agit de valeurs réelles et non d’erreurs. | Mise en forme conditionnelle |
Données manquantes/ lacunes | Les données peuvent comporter des lacunes du fait de l’absence de réponse (par exemple : des informateurs ont refusé de répondre, n’étaient pas disponibles ou ne possédaient pas assez d’informations pour pouvoir répondre) ou de questions non pertinentes (la question ne s’appliquait pas à la personne interrogée). Il est préférable que les personnes qui utilisent les données sachent ce que signifient les “données manquantes” afin de pouvoir les analyser correctement. | Mise en forme conditionnelle Rechercher et remplacer Inscrire l’expression “valeur nulle” dans les cellules vides, ou si une différenciation est requise, inscrire les expressions “non-réponse” ou “sans objet”. Il est courant d’indiquer -9999 ou S/O pour les valeurs nulles |
Valeurs zéro | Les valeurs zéro auront une incidence directe sur les calculs réalisés sur un ensemble de données. Par exemple, la moyenne entre 0 et 1 est 0,5, tandis que la moyenne entre une cellule vide et 1 est 1. Il convient d’être particulièrement attentif à cet égard afin d’éviter que les résultats de l’analyse soient erronés. | Rechercher et remplacer Le zéro n’est jamais utilisé à la place de “valeur nulle” (cellule vide) mais il l’est toujours lorsque cette valeur est réellement significative (valeur vraie de zéro) |
Doublons | Les doublons sont deux enregistrements identiques ou plus (par exemple : le même ménage apparaît deux fois ou les données d’une même personne interrogée sont enregistrées deux fois). | Filtres Mise en forme conditionnelle (dans Excel, mise en forme conditionnelle des doublons) Tableaux croisés dynamiques + dénombrement des enregistrements uniques |
Erreurs de saisie/fautes d’orthographe | Les erreurs de saisie peuvent poser problème lors de la phase d’analyse, étant donné qu’une catégorie peut être traitée comme d’autres catégories distinctes. Par exemple, si une personne écrit “masculin” sous “chef de ménage” et qu’une autre écrit “homme”, les ménages classés dans la catégorie “homme” risquent de ne pas être pris en compte si le mot-clé utilisé pour le calcul est “masculin”. | Vérification manuelle Rechercher et remplacer les erreurs de saisie/ fautes courante |
Le kit d’outils Excel et l’analyse utilisent un ensemble de fausses données qui ont été générées sur la base d’un scénario « réel » dans le secteur humanitaire.
Vous trouverez une présentation plus complète de l’étude de cas (présentation de l’étude, questions de recherche, liste des indicateurs, plan d’analyse, bases de données complètes), dans la « Boîte à outils Analyse de données » – Partie « 7 L’étude de cas ».
Afin de vous entraîner au nettoyage et au contrôle de la qualité des données, voici un exercice pratique dont l’objectif est de nettoyer les données brutes de l’étude de cas. Après une vingtaine d’étapes - de la mise en forme à l’identification de valeurs manquantes, en passant par la suppression des doublons – la base de données sera prête pour l’analyse.
Utilisez le fichier « BO Excel - Nettoyage - Exercice pratique - V1 – Enoncé » afin de vous exercer au nettoyage de données, en suivant les différentes étapes indiquées.
En cas de difficultés, ou pour comparer vos résultats avec la base de données nettoyée, reportez-vous au fichier « BO Excel - Nettoyage - Exercice pratique - V1 – Solutions ».