4.3.3 Mesures de la variabilité
TABLE DES MATIÈRES
Les mesures de la variabilité nous indiquent comment nos données sont réparties, ou variées, dans la gamme possible de valeurs.
La Gamme
La façon la plus simple est de calculer la gamme complète de nos observations, en soustrayant la plus petite observation de la plus grande.
L’écart type
Toutefois, l’écart-type est la mesure de variabilité la plus couramment utilisée. L’écart-type nous indique, en moyenne, à quel point chacune de nos observations est proche de la moyenne. Un écart-type plus important indique que nos données sont plus étalées. Cette page (disponible en anglais) présente les grandes lignes de la formule derrière le calcul de l’écart-type. Comment calculer cela dans Excel, c’est simple !
Pour en savoir plus : quelle est la signification de l’écart-type ? La situation peut être résumée simplement comme montré dans le graphique suivant :
Cela suppose, généralement, que vous utilisiez l’écart-type lorsque la distribution graphique de vos données ressemble à une cloche (c’est une distribution gaussienne).
Cela signifie, approximativement, que vous avez 68,2% (34,1%+34,1%) des valeurs situées entre votre écart-type moyen – 1 *.
Supposons que vous souhaitiez comprendre l’impact de la construction de puits sur la population bénéficiaire dans un camp, que vous mesurez par la quantité d’eau que les personnes reçoivent des puits par jour dans les foyers environnants. Grâce à une enquête, vous trouvez une valeur moyenne de 21 litres par personne et par jour et un écart type de 2,1. Cela signifie que 68,2 % des valeurs se situent entre 18,9 et 23,1 litres par personne et par jour. En outre, 95 % des valeurs se situeront entre 21 litres - 22,1 = 16,8 et 21 + 22,1 = 25,2.
Vous pouvez donc émettre l’hypothèse que (si votre enquête a été menée avec une méthode d’échantillonnage appropriée) la plupart de vos bénéficiaires dans la zone (95% d’entre eux) ont reçu au moins 16,8 litres/personne/jour (et jusqu’à 25,2).
Si votre standard est de 15 litres par jour, vous avez atteint votre standard, mais si vous visez 20 litres par personne et par jour, cela signifie que vous devez quand même analyser les données plus en détail pour comprendre les écarts (même si vous pouvez dire qu’en moyenne votre distribution a atteint le standard). Vous pouvez alors examiner si vous avez un déséquilibre géographique (par exemple, une zone qui n’est pas bien couverte) et sur lequel vous devriez vous concentrer lors de votre prochaine série d’activités de construction. On pourrait presque dire que l’écart-type est une mesure de la « volatilité » (et donc de la confiance que vous pouvez avoir) de la mesure de vos indicateurs.
Comme vous pouvez le voir, l’écart-type et la moyenne en eux-mêmes ne vous donnent rien, mais le fait d’interroger les chiffres vous conduira à poser les bonnes questions à votre équipe programme.
Il est essentiel de ne pas réduire l’analyse des données au simple duo « moyenne/écart-type ». En effet, vous devez toujours afficher vos données afin de faciliter la compréhension visuelle de la diffusion de vos données et ainsi d’évaluer la pertinence de la moyenne et de l’écart-type.
Prenons par exemple les deux graphiques ci-dessous:
Dans le premier cas (à gauche), l’évaluation de la moyenne et de l’écart-type est pertinente car la distribution ressemble à une fonction gaussienne.
Mais dans le graphique de droite, l’approximation est tout à fait erronée, car elle ne représente pas fidèlement la manière dont vos données sont distribuées. Dans ces cas, vous devez :
- Utiliser d’autres moyens pour statistiquement modéliser ce à quoi ressemble la distribution (via une exponentielle, loi de Poisson, etc… quels paramètres sont différents de la moyenne et de l’écart-type) où ;
- Présumer que les chiffres que vous avez pour la moyenne et l’écart-type ne sont pas vraiment représentatifs (et ne devraient donc pas être utilisés pour la prise de décision/mais plutôt comme base pour des évaluations supplémentaires).
Ce que vous devez savoir :
- Il est important que représentiez graphiquement vos données pour avoir un aperçu de la distribution. Utilisez un histogramme et ajoutez la moyenne. Rappelez-vous qu’une courbe qui ne ressemble pas à une cloche suggère qu’il ne faut pas que vous fassiez trop confiance à la moyenne et à l’écart-type.
- Cela signifie également qu’entre deux séries de mesures ayant la même moyenne et le même écart-type, vous ne pouvez pas tirer de conclusion sans regarder les tracés des courbes statistiques.
Variance
La variance est étroitement liée à l’écart-type car il s’agit seulement du carré de l’écart-type. Bien que ces deux mesures quantifient des caractéristiques similaires de vos données, l’écart-type est beaucoup plus couramment utilisé. Découvrez comment le faire dans Excel.
Quartile
Un quartile est une division de votre ensemble de données en 4 parties égales (utilisant par conséquent une approche similaire à la médiane qui le divise en 2). De la même manière que la médiane, vous devez classer toutes les observations de la plus petite à la plus grande en premier.
- Ensuite, le premier quartile est le nombre entre le plus petit nombre de votre ensemble de données et la médiane de l’ensemble de données (il correspond à 25 % des valeurs totales).
- Le deuxième quartile est la médiane de l’ensemble de données, à savoir 50 % des valeurs totales.
- Le troisième quartile est le nombre entre le nombre le plus élevé de votre ensemble de données et la médiane de l’ensemble de données (il correspond à 75 % des valeurs totales).
Une fois ces valeurs définies, vous pouvez identifier l’écart interquartile (interquartile range ou « IQR » en anglais) qui est la différence entre Q1 et Q3. Cette analyse de la dispersion est complémentaire à l’écart-type, car elle utilise un paramètre moins influencé par les valeurs extrêmes, et permet ainsi une estimation plus fiable de la dispersion.
Par conséquent, lorsque vous voulez analyser vos données et exclure spécifiquement les valeurs aberrantes, vous pouvez utiliser la représentation suivante, appelée « boîte à moustaches » :
Crédit Wiki
En statistiques, le quartile (à savoir, diviser en 4) et le décile (diviser en 10) sont souvent les quantiles les plus utilisés pour caractériser l’ensemble de données. Vous pouvez utiliser une autre méthode pour diviser votre ensemble de données en intervalles avec des probabilités égales telles que terciles (division en 3), sextiles (division en 6) ou centiles (division en 100) selon le niveau de granularité que vous souhaitez avoir, la taille de votre ensemble de données, etc.
Ce que vous devez savoir : Vous devez toujours utiliser une forme de quantile (au moins la médiane, mais aussi les quartiles) pour analyser vos données car elles sont moins sensibles aux valeurs aberrantes et à la distribution à longue traîne. En effet, si ces mesures sont moins efficaces que les paramètres relatifs à une distribution standard (comme la moyenne et l’écart-type), elles sont beaucoup plus appropriées lorsque vos données ont des perspectives différentes, par exemple :
Dans notre étude de cas, nous avons créé une boîte à moustaches des scores SCA pour chaque ménage par région, qui montre quelques différences intéressantes pour l’interprétation.
Tout d’abord, la “moustache” inférieure marque la valeur minimale, tandis que la “moustache” supérieure montre la valeur la plus élevée. Le bas de la boîte marque l’emplacement du premier quartile, le haut de la boîte indiquant l’emplacement du troisième quartile ; la longueur de la boîte indique donc l’écart interquartile. La longueur de la boîte indique donc l’écart interquartile. Le “X” dans la boîte représente la moyenne, tandis que la ligne qui traverse la boîte représente la médiane.
Premièrement, chaque région présente des fourchettes de valeurs très similaires, comme le montre l’écart interquartile ; cela est logique, étant donné que le SCA est une variable discrète et quantitative dont la valeur minimale est de 0 et la valeur maximale de 112 (ce qui implique que chacun des groupes d’aliments a été consommé tous les jours au cours des sept derniers jours).
Cependant, malgré une valeur moyenne très similaire (représentée par le x), nous pouvons voir que les valeurs médianes diffèrent significativement entre les régions (représentées par les lignes dans les cases). Notamment, la région 1 présente une moyenne supérieure à 50 (supérieure à la moyenne), tandis que la région 2 présente une moyenne de 31 (inférieure à la moyenne). Avec la médiane plus proche du bas du haut de la boîte, la région 1 a une asymétrie négative et, à l’opposé, la région 2 a une asymétrie positive.
L’asymétrie positive observée dans la Région 2 suggère que, bien que certains ménages aient des scores de SCA élevés, davantage de ménages ont des scores de SCA inférieurs à la moyenne (dans la partie inférieure de la case). Dans le monde de notre étude de cas, cela suggère que la Région 2 pourrait avoir des taux plus élevés d’insécurité alimentaire, tels que mesurés par l’indicateur SCA.