Link Search Menu Expand Document
Boîte à outils Excel

3.7 Récapitulatif du contrôle qualité des données



Avant d’être analysées, les données doivent d’abord être vérifiées afin de détecter d’éventuelles erreurs. Certaines erreurs peuvent ne pas être manifestes avant le début de l’analyse (par exemple : une valeur aberrante qui n’en est pas vraiment une mais qui est en réalité une coquille). Néanmoins, il est préférable de détecter le maximum d’erreurs possibles afin d’éviter de devoir faire machine arrière pendant l’analyse.

Le tableau ci-dessous répertorie certaines erreurs courantes et les techniques pour les corriger. Il est à noter que certaines de ces erreurs peuvent être atténuées au moyen de contrôles de saisie des données dans la plateforme de saisie.

Erreur Description Technique de correction
Valeurs aberrantes Une valeur aberrante est une observation anormalement éloignée de toutes les autres valeurs mesurées. Il convient de procéder à un dépistage des éventuelles valeurs aberrantes dès la phase de traitement des données, afin de s’assurer qu’il s’agit de valeurs réelles et non d’erreurs. Mise en forme conditionnelle
Données manquantes/ lacunes Les données peuvent comporter des lacunes du fait de l’absence de réponse (par exemple : des informateurs ont refusé de répondre, n’étaient pas disponibles ou ne possédaient pas assez d’informations pour pouvoir répondre) ou de questions non pertinentes (la question ne s’appliquait pas à la personne interrogée). Il est préférable que les personnes qui utilisent les données sachent ce que signifient les “données manquantes” afin de pouvoir les analyser correctement. Mise en forme conditionnelle Rechercher et remplacer

Inscrire l’expression “valeur nulle” dans les cellules vides, ou si une différenciation est requise, inscrire les expressions “non-réponse” ou “sans objet”. Il est courant d’indiquer -9999 ou S/O pour les valeurs nulles
Valeurs zéro Les valeurs zéro auront une incidence directe sur les calculs réalisés sur un ensemble de données. Par exemple, la moyenne entre 0 et 1 est 0,5, tandis que la moyenne entre une cellule vide et 1 est 1. Il convient d’être particulièrement attentif à cet égard afin d’éviter que les résultats de l’analyse soient erronés. Rechercher et remplacer

Le zéro n’est jamais utilisé à la place de “valeur nulle” (cellule vide) mais il l’est toujours lorsque cette valeur est réellement significative (valeur vraie de zéro)
Doublons Les doublons sont deux enregistrements identiques ou plus (par exemple : le même ménage apparaît deux fois ou les données d’une même personne interrogée sont enregistrées deux fois). Filtres

Mise en forme conditionnelle (dans Excel, mise en forme conditionnelle des doublons)

Tableaux croisés dynamiques + dénombrement des enregistrements uniques
Erreurs de saisie/fautes d’orthographe Les erreurs de saisie peuvent poser problème lors de la phase d’analyse, étant donné qu’une catégorie peut être traitée comme d’autres catégories distinctes. Par exemple, si une personne écrit “masculin” sous “chef de ménage” et qu’une autre écrit “homme”, les ménages classés dans la catégorie “homme” risquent de ne pas être pris en compte si le mot-clé utilisé pour le calcul est “masculin”. Vérification manuelle

Rechercher et remplacer les erreurs de saisie/ fautes courante