4.3.2 Mesures de la tendance centrale
TABLE DES MATIÈRES
Les mesures de la tendance centrale nous permettent de mieux comprendre la moyenne d’un ensemble de données. Vous trouverez ci-dessous trois mesures couramment utilisées : Moyenne, médiane, mode.
Moyenne
L’une des statistiques sommaires les plus courantes, la moyenne, peut être calculée en additionnant toutes les observations et en divisant cette somme par le nombre total d’observations. Notez que la moyenne est très sensible aux valeurs aberrantes dans votre ensemble de données. Si certaines de vos observations sont extrêmement élevées ou faibles par rapport à la plupart des données, alors la moyenne de toutes ces observations peut être trompeuse en ce qu’elle sera biaisée dans la direction de ces valeurs aberrantes. Comment calculer cela dans Excel ?
Ce que vous devez savoir : la moyenne est un paramètre statistique très « simple ». Elle est facile à calculer et a été très largement utilisée. L’inconvénient est que :
- Compte tenu de sa sensibilité aux valeurs aberrantes, elle peut rapidement devenir insignifiante si vous êtes confronté à un contexte complexe ou si la qualité de la collecte de données fait défaut.
- Dans le cas d’une distribution de données qui n’est pas symétrique, vous ne devriez pas l’utiliser ou l’utiliser avec prudence, car elle ne sera pas représentative/statistiquement solide.
Par exemple, comme vous pouvez le constater ci-dessous, nous avons deux séries de données d’enquêtes KAP portant sur la quantité moyenne d’eau fournie (litres/personne/jour) à deux endroits différents ayant la même moyenne (ligne pointillée) qui est égale à 21,2 l/p/d.
Mais ces deux distributions sont totalement différentes : la distribution verte est centrée autour de la moyenne, avec la plupart des valeurs autour d’elle et très peu d’écart, donc l’information que la moyenne transmet est assez solide : la plupart des gens ont accès à environ 21 l/p/d.
Mais la deuxième (la rouge) montre une réalité très différente, car il y a beaucoup de gens qui ont accès à une très grande quantité d’eau et beaucoup de gens avec très peu d’eau, ce qui signifie que malgré une bonne moyenne, le programme a encore beaucoup de travail à faire pour couvrir la majorité de la population (et nous aurions tort de supposer que nous avons atteint un standard).
L’un des éléments qui vous permettra de mettre en évidence cette différence, et de ne pas vous laisser tromper par des moyennes similaires, est l’écart-type. Aussi, pour la calculer avec Excel, vous pouvez vous reporter au lien suivant.
Dans notre étude de cas, nous avons calculé la moyenne des scores de consommation alimentaire (SCA), qui peut nous donner une indication de l’insécurité alimentaire parmi la population de l’échantillon.
Comme le montre le tableau ci-dessous, la valeur moyenne du SCA est de 42,7, ce qui indique un score SCA “acceptable” selon les seuils d’indicateurs.standardisés.
Seuil | Score |
---|---|
Médiocre | 0 to 21 |
Limite | 21.5 to 35 |
Acceptable | 35.5 + |
Cependant, comme indiqué ci-dessous, cette mesure de la tendance centrale seule peut être trompeuse ; si nous nous arrêtons là, nous pourrions penser que la population de l’échantillon ne connaît pas l’insécurité alimentaire. La moyenne doit être considérée en conjonction avec d’autres analyses !
Médiane (et les quartiles)
Nous pouvons également calculer la valeur médiane d’une variable en classant toutes les observations de la plus petite à la plus grande et en sélectionnant l’observation au milieu. Découvrez comment le faire dans Excel.
La médiane correspond toujours au deuxième quartile et peut être appliquée à la plupart des situations que vous rencontrerez sur le terrain.
Ce que vous devez savoir : vous devez toujours calculer la médiane, car elle n’est pas sensible aux valeurs aberrantes. Après l’avoir calculée, comparez-la à votre moyenne, car elle vous donnera une première idée de la dispersion de vos données.
Dans notre étude de cas, nous avons calculé la moyenne des scores de consommation alimentaire. La valeur médiane du SCA est de 40,8.
La valeur médiane indique également un score SCA “acceptable” selon les seuils d’indicateurs standardisés. Cependant, étant donné que la médiane est inférieure à la moyenne, nous pouvons savoir qu’il y a une plus grande concentration de points de données dans les limites inférieures des scores SCA parmi la population de l’échantillon. Par conséquent, nos données sont plus concentrées en dessous de la moyenne qu’au-dessus de la moyenne, et peuvent être influencées par des valeurs plus élevées, “aberrantes”.
Mode
Le mode correspond la valeur qui apparaît le plus souvent dans les observations. Le mode est le plus souvent utilisé pour les données qualitatives où la moyenne et la médiane ne sont pas appropriées pour le calcul. Comment calculer cela dans Excel, c’est simple !
Dans notre étude de cas, , les enquêtés devaient répondre à un certain nombre de questions qui fournissaient des données qualitatives. Un exemple est la question : “Comment cette nourriture a-t-elle été acquise ?”, qui comprenait une liste d’options de réponses potentielles. Le mode indique la réponse la plus courante, à savoir “Production propre du ménage”. En conjonction avec les indicateurs de sécurité alimentaire, nous pouvons émettre l’hypothèse que la population cible continue d’avoir des niveaux élevés de production agricole qui n’ont pas été entièrement perturbés par le conflit.