Link Search Menu Expand Document
Boîte à outils Excel

3.5 Identifier les valeurs extrêmes


Une valeur aberrante est une valeur extrême, anormalement différente de la distribution d’une variable. En d’autres termes, la valeur de cette observation diffère grandement des autres valeurs de la même variable. Tout comme la recherche des doublons, la détection de ces valeurs extrêmes (ou outliers en anglais) est une étape essentielle du nettoyage de données, les valeurs extrêmes pouvant influencer à la hausse ou à la baisse certaines statistiques produites, notamment celles portant sur les moyennes et ainsi conduire à des analyses erronées.

Il est possible d’identifier les valeurs extrêmes en effectuant les étapes suivantes : tout d’abord, déterminer le 1er quartile Q1=QUARTILE(plage de cellule,1) et le 3ème quartile Q3=QUARTILE(plage de cellule,3) de la variable d’intérêt puis évaluer ensuite la plage interquartile (IQR), c’est-à-dire les 50% moyens des valeurs de vos données. Cette dernière est calculée comme la différence entre la valeur du 1er quartile et la valeur du 3e quartile, Q3-Q1. La troisième étape vise à calculer les limites inférieure et supérieure, c’est-à-dire les valeurs les plus petites et les plus grandes de la plage de données que vous utilisez. Pour la limite inférieure, on multiplie alors la valeur de l’IQR par 1,5 que l’on soustrait à la valeur de Q1. Pour la limite supérieure, on multiplie l’IQR par 1,5, qu’on additionne à la valeur de Q3.

image info

Pour identifier les valeurs aberrantes, on peut maintenant utiliser la fonction =OU() afin de repérer les données inférieures à la valeur limite inférieure ou supérieure à la valeur limite supérieure.

image info

Selon le contexte, une valeur VRAI pourra alors indiquer une valeur aberrante (ci-dessus, en ligne 8).

La mise en forme conditionnelle peut également permettre de mettre en évidence les valeurs extrêmes, en spécifiant sous quelles conditions une valeur est considérée comme telle.

Retrouvez plus d’informations disponibles sur la mise en forme conditionnelle dans cette section.

Une fois les valeurs extrêmes identifiées, vous pouvez soit :

  • les garder comme telles,
  • les remplacer par une valeur normale ou attendue aléatoire,
  • les écarter de l’analyse.

Retrouvez plus d’informations disponibles sur les valeurs aberrantes dans cette section de la Boîte à outils Analyse de données.

Afin de vous entraîner au calcul des quartiles (et d’autres statistiques descriptives), voici un exercice pratique à partir des données nettoyées de l’étude de cas - développée par CartONG dans le cadre de la publication de la Boîte à outils Analyse de données. Vous trouverez une présentation plus complète de cette étude de cas dans la « Boîte à outils Analyse de données » – Partie « 7 L’étude de cas ».

Dans cet exemple, nous vous proposons de générer, à l’aide de fonctions, les statistiques descriptives (dont les 1er et 3ème quartiles, ainsi que la médiane), concernant :

  • L’âge des membres du ménage
  • Le Score de Consommation Alimentaire (SCA) des ménages

Utilisez le fichier « BO Excel - Analyse 4.3 - Exercice pratique - V1 – Enoncé » afin de vous exercer à calculer les statistiques descriptives à l’aide de fonctions.

En cas de difficultés, ou pour comparer vos résultats avec ceux de l’étude de cas, reportez-vous au fichier « BO Excel - Analyse 4.3 - Exercice pratique - V1 – Solutions ».