Link Search Menu Expand Document
Boîte à outils analyse de données quantitatives

3.3.3 Valeurs aberrantes


Une valeur aberrante est une valeur extrême, anormalement différente de la distribution d’une variable. En d’autres termes, la valeur de cette observation diffère grandement des autres valeurs de la même variable. Tout comme la recherche des doublons, la détection de ces valeurs extrêmes (ou outliers en anglais) est une étape essentielle du nettoyage de données, les valeurs extrêmes pouvant influencer à la hausse ou à la baisse certaines statistiques produites, notamment celles portant sur les moyennes et ainsi conduire à des analyses erronées.

image info

Par exemple, si vous calculez la moyenne des paniers alimentaires reçus par mois. Bien que le nombre prévu soit compris entre 2 et 5, si une ou plusieurs familles ont mentionné avoir reçu jusqu’à 10 paniers alimentaires au cours du dernier mois, cela aura une incidence sur le nombre moyen de paniers alimentaires reçus au cours du dernier mois

  • Si vous utilisez Excel pour analyser vos données, voici comment vous pouvez les repérer.

Que faire des valeurs aberrantes ?

Tout d’abord, les valeurs extrêmes doivent être mises en évidence afin qu’elles puissent être clairement identifiées et que vous ayez une vue d’ensemble automatique et visuelle (par exemple, via le formatage conditionnel dans Excel).

Déterminer la cause d’une exception peut alors être une étape pour savoir comment procéder ensuite.

  • Valeurs aberrantes imputables à l’inclusion d’une personne qui ne répond pas aux critères de votre population cible. Par exemple : des entretiens avec des adultes, alors que vous menez une enquête sur des enfants.
    • Dans ce cas, les données doivent être exclues de l’analyse et peuvent être supprimées.
  • Valeurs aberrantes causées par une faute de frappe ou une mauvaise compréhension de la question. Par exemple, 120 paniers alimentaires reçus en une journée par 1 famille.
    • Si elles sont facilement identifiables, elles peuvent être traitées comme une erreur (voir la section précédente).

Si les formulaires MDC sont correctement conçus, il devient de plus en plus difficile pour l’enquêteur sur le terrain de saisir des valeurs irréalistes ou extrêmes. La collecte de données sur mobile peut limiter les réponses possibles (c’est-à-dire fournir une réponse maximale ou minimale, ou une sélection de valeurs qualitatives possibles). Par exemple, un formulaire peut être configuré pour accepter uniquement un âge compris dans une plage spécifique et supprimer ainsi la possibilité d’inclure des données provenant d’individus en dehors de cette plage, et aussi la possibilité d’erreurs de saisie de données.

Cependant, vous devez faire attention car un formulaire MDC mal conçu pourrait comporter un biais inhérent et en réalité diminuer la qualité des données en empêchant les enquêteurs de saisir les réponses réelles des enquêtés. Dans ce cas, le formulaire contiendrait un “biais de confirmation”.

Pour plus d’informations veuillez vous référer à la partie sur les “Contraintes” dans la section 3.3.2 Erreurs.

Mais il n’est pas toujours évident de voir si une exception survient à la suite d’une erreur ou si c’est une véritable valeur extrême:

  • Il n’est pas toujours souhaitable d’exclure ou de supprimer des valeurs extrêmes qui soient réelles ou non déterminées. Il est parfois préférable de conserver des valeurs aberrantes dans vos données, car elles permettent parfois de réunir des informations précieuses qui font partie des résultats de votre enquête.
    • Il est conseillé d’examiner l’influence des valeurs extrêmes sur les résultats de votre enquête avant de prendre une décision. Vous pouvez au final :
      • Les garder, surtout si vous savez que sont de vraies valeurs extrêmes et que vous voulez les prendre en compte dans votre analyse. À ce moment, il devient nécessaire d’analyser la médiane plutôt que la moyenne, afin de minimiser leur effet sur les statistiques. De plus, la différence entre la médiane et la moyenne met en exergue la variance entre les résultats.
      • Ecartez les valeurs aberrantes de votre analyse, lesquelles peuvent également introduire un autre biais.
      • Remplacer les valeurs extrêmes par une valeur normale ou attendue aléatoire, mais sachez que cela peut fausser votre analyse. Deux méthodes sont possibles :
        • L’imputation à la moyenne (remplacer la valeur manquante ou incohérente par la valeur moyenne), facile à réaliser mais pouvant entraver la valeur statistique du jeu de donnée.
        • La winsorisation, statistiquement plus robuste qui revient à fixer toutes les valeurs aberrantes à un percentile spécifié des données. Pour le faire sous Excel – vous pouvez vous référer ici (disponible en anglais).

Gardez à l’esprit que même si les variables n’ont pas de sens, mais qu’il n’y a aucune preuve d’erreurs, l’approche la plus conservatrice reste de laisser les données telles qu’elles sont. Le changement de valeurs introduit la possibilité d’un important biais qui repose sur le point de vue subjectif de la personne qui effectue l’analyse !

Dans tous les cas, votre traitement des valeurs aberrantes doit être inclus dans la présentation de la section méthodologie de votre rapport, en plus d’une description des effets sur l’analyse.