Link Search Menu Expand Document
Boîte à outils Excel

3.5 Identifier les valeurs extrêmes


Une valeur aberrante est une valeur extrême, anormalement différente de la distribution d’une variable. En d’autres termes, la valeur de cette observation diffère grandement des autres valeurs de la même variable. Tout comme la recherche des doublons, la détection de ces valeurs extrêmes (ou outliers en anglais) est une étape essentielle du nettoyage de données, les valeurs extrêmes pouvant influencer à la hausse ou à la baisse certaines statistiques produites, notamment celles portant sur les moyennes et ainsi conduire à des analyses erronées.

Il est possible d’identifier les valeurs extrêmes en effectuant les étapes suivantes : tout d’abord, déterminer le 1er quartile Q1=QUARTILE(plage de cellule,1) et le 3ème quartile Q3=QUARTILE(plage de cellule,3) de la variable d’intérêt puis évaluer ensuite la plage interquartile (IQR), c’est-à-dire les 50% moyens des valeurs de vos données. Cette dernière est calculée comme la différence entre la valeur du 1er quartile et la valeur du 3e quartile, Q3-Q1. La troisième étape vise à calculer les limites inférieure et supérieure, c’est-à-dire les valeurs les plus petites et les plus grandes de la plage de données que vous utilisez. Pour la limite inférieure, on multiplie alors la valeur de l’IQR par 1,5 que l’on soustrait à la valeur de Q1. Pour la limite supérieure, on multiplie l’IQR par 1,5, qu’on additionne à la valeur de Q3.

image info

Pour identifier les valeurs aberrantes, on peut maintenant utiliser la fonction =OU() afin de repérer les données inférieures à la valeur limite inférieure ou supérieure à la valeur limite supérieure.

image info

Selon le contexte, une valeur VRAI pourra alors indiquer une valeur aberrante (ci-dessus, en ligne 8).