3.3.2 Erreurs
La plupart du temps, lors du nettoyage d’une base de données, vous devez rechercher des incohérences et différents types d’erreurs, tels que :
Des données saisies sous le mauvais format :
- Caractères spéciaux qui ont été transformés lors de l’export
- « 0 » au lieu d’une cellule vide ou « N/A » (c’est-à-dire pour une question numérique à laquelle il n’y a pas eu de réponse)
- Problèmes d’unité (âge en mois/années, mètres/pieds, etc.), format de date ou de cellule
- Numéros enregistrés sous forme de texte
- Différence de traitement des caractères spéciaux dans différentes langues
Des données incorrectes ou incohérentes saisies par les énumérateurs ou mal calculées par le logiciel :
- Incohérences orthographiques ⇒ par exemple, les noms de lieux ayant plusieurs orthographes différentes
- Pourcentages qui totalisent plus de 100 %, ce qui suggère que les calculs n’ont pas été correctement formatés
- Sommes qui ne correspondent pas (incohérences logiques), c’est-à-dire que le nombre total de membres du ménage est différent de la somme des membres hommes/femmes du ménage
- Fautes de frappe, par exemple « -5 » personnes dans le ménage
- Autres incohérences logiques dans les réponses ⇒ le ménage n’a signalé aucun enfant mais 3 enfants vont à l’école
- Autres réponses incohérentes en raison de plusieurs facteurs, par exemple par une interprétation différente des questions par les énumérateurs ou les personnes interrogées
- Il s’agit d’un problème connu qui peut être résolu au moyen de bonnes pratiques liées aux traductions et aux contrôles des enquêtes
Translators without Borders (TWB) a publié un guide pour adapter et traduire les enquêtes, et une étude (en anglais) qui met en lumière la manière dont les enquêteurs comprennent les terminologies utilisées dans le contexte humanitaire.
- Des valeurs dérivées (issues d’un calcul) incorrectes en raison d’une fonction a été mal calculée
En plus de ces erreurs courantes, il est indispensable de rechercher les valeurs aberrantes et les données manquantes (voir les sections ci-dessous).
Les outils de collecte de données sur mobile peuvent aider à prévenir les incohérences dans la collecte des données. Deux des outils les plus importants sont les sauts de question et les contraintes. Des formulaires de collecte sur mobile bien conçus devraient limiter la plupart (mais pas l’intégralité) des incohérences, les données doivent par conséquent être vérifiées pour être nettoyées.
Les sauts de question (« Skip-Logic » en anglais) : L’enquête ne pose des questions que si elles ont un sens sur la base des réponses précédentes. Il est également possible de restreindre les réponses possibles à une question spécifique en fonction des réponses précédentes.
Un exemple simple de sauts de question peut être observé dans l’étude de cas où les répondants sont interrogés : “Votre ménage reçoit-il une aide alimentaire (distribution alimentaire générale en nature et/ou subventions en espèces et/ou coupons alimentaires) ?”
En fonction des réponses “Oui” ou “Non”, les répondants se voient poser l’une des questions suivantes, mais pas l’autre :
- (Si Oui) “Combien de jours la nourriture provenant de la distribution alimentaire générale du dernier cycle d’aide alimentaire a-t-elle duré ?”
- (Si Non) “Pourquoi n’avez-vous pas accès aux programmes locaux d’aide alimentaire ?”
Contraintes : Les contraintes peuvent limiter les valeurs d’entrée (s’il s’agit d’un nombre entier) ou les réponses (s’il s’agit d’une variable nominale). Avec les contraintes sur les variables entières, vous pouvez définir une valeur maximale et minimale dans le formulaire de collecte de données sur mobile et réduire les erreurs de saisie. Avec les contraintes sur les variables nominales, vous pouvez limiter les options de réponse en fonction des réponses antérieures (dans la même question ou dans d’autres), réduisant ainsi les incohérences logiques dans les réponses.
Un exemple de contrainte sur une variable entière peut être vu dans l’étude de cas où l’on demande aux répondants : “Quel est le nombre total de membres dans le ménage ?”. Les réponses ne peuvent être saisies qu’entre 1 et 30 (pas de nombres négatifs et pas de réponses supérieures à 30). Cela permet de prendre en compte les familles très nombreuses, tout en éliminant la possibilité d’une erreur de saisie, comme un symbole négatif (-) avant la valeur, ou un zéro supplémentaire.
Un exemple de contrainte sur une variable nominale peut être vu dans l’étude de cas où les répondants sont interrogés : “Parmi les besoins de base de votre ménage, lequel ne pouvez-vous pas vous permettre ?”. Les options de réponse potentielles sont une série de besoins de base du ménage, mais deux autres options incluent “Ne sait pas” ou “Tous les besoins sont satisfaits”. Le formulaire ne permet pas aux répondants de sélectionner un besoin fondamental qu’ils ne peuvent pas se permettre, en plus de “Ne sait pas” ou “Tous les besoins fondamentaux sont satisfaits”.
Cependant, vous devez faire attention car un formulaire de collecte de données sur mobile mal conçu et comportant un biais inhérent peut en fait diminuer la qualité des données en empêchant les enquêteurs de saisir les réponses réelles des personnes concernées. Dans ce cas, le formulaire contiendrait un “biais de confirmation”.
Accédez au fichier XLSForm ici.
Que faire des erreurs, des valeurs manquantes et/ou des valeurs extrêmes identifiées ?
Si le temps et les ressources le permettent, il est toujours préférable de mesurer à nouveau la valeur suspecte ou erronée, par exemple en effectuant un suivi directement par les enquêteurs auprès du sujet de recherche qui a répondu en premier aux questions de l’enquête. Si ce n’est pas le cas, vous pouvez suivre les étapes ci-dessous (résumées à partir de la ressource ACAPS datant de 2016, Technical Brief : Data Cleaning disponible en anglais) :
- Ne pas modifier les données : Même si vous soupçonnez la présence d’une erreur, laissez-la inchangée et incluez-la dans l’analyse. Plus la taille de l’échantillon est importante, moins une erreur potentielle aura un impact sur l’analyse.
Rappelez-vous qu’il est possible que la donnée entrée soit en fait une valeur extrême et que le choix de le corriger soit souvent fonction de la perspective subjective de la personne effectuant le nettoyage et l’analyse des données. Par conséquent, laisser les données inchangées est une approche prudente. Toutefois, choisir de procéder ainsi est plus difficile si l’échantillon de cet ensemble de données est petit. Sur un petit ensemble de données, une valeur incorrecte a un impact potentiel plus important sur les résultats globaux.
- Corriger les données : Cela ne peut être fait que si les intentions initiales de l’enquêté quant à ses réponses peuvent être pleinement déterminées, par exemple après un suivi auprès de l’enquêteur, ou de l’enquêté directement.
Cependant, l’approche la plus conservatrice est celle mentionné plus tôt, à savoir ne pas modifier les données. S’il n’y a pas de notes ou de preuves pour comprendre d’où vient l’erreur, il est souvent préférable de laisser les données telles quelles. La modification de valeurs peut aboutir à des biais importants s’il n’est pas justifié, car les changements seront basés sur les notions préconçues de la personne qui effectue l’analyse. Par conséquent, sans évidence concrète d’une erreur, il est préférable de laisser les données telles quelles et de les traiter comme une exception.
- Supprimer les données : Vous pouvez potentiellement supprimer les données si elles semblent largement illogiques dans la mesure où la valeur est si éloignée de la norme qu’elle affectera les statistiques.
Toutefois, devez-vous supprimer uniquement cette réponse ou supprimer l’enregistrement dans son ensemble ? Il est important de rappeler que chaque fois que des données sont supprimées, il existe un risque de « cueillir à la pièce » les résultats attendus, consciemment ou inconsciemment, pour obtenir des résultats plus escomptés. Les valeurs impossibles ne doivent sous aucune circonstance rester inchangées, mais doivent être corrigées si une valeur correcte est trouvée, ou autrement être supprimées.
Dans l’ensemble, la meilleure ligne de conduite est spécifique au contexte et reste à la discrétion de la personne conduisant l’analyse. La collecte d’informations documentaires complémentaires peut vous permettre de déterminer les mesures à prendre.
À noter : La collecte de données sur mobile peut fournir des outils précieux pour vous aider à obtenir plus d’informations. Les métadonnées des données soumises peuvent vous aider à obtenir plus d’informations, par exemple par le temps passé sur une contribution à l’enquête, la localisation, ou l’examen des « lacunes » potentielles dans les outils (comme une contrainte manquante, qui pourrait entraîner des erreurs de saisie de données). Rassembler des informations auprès de l’équipe de collecte des données est également très utile, si le temps et les ressources le permettent.