4.4 Rechercher des liens entre les variables


Dans de nombreux cas, nous ne nous soucions pas seulement d’analyser chaque variable seule, mais cherchons également à comprendre comment les différentes variables se rapportent les unes aux autres. Nous pourrions examiner comment les variations d’une variable sont liés aux variations d’une autre. Quand X augmente, Y augmente-t-elle également ? Diminue-t-elle ? De combien ? C’est ce que l’on appelle une analyse de corrélation.
La création de diagrammes de dispersion est un bon moyen de commencer à rechercher des relations, où l’on trace une variable sur chaque axe X et Y.
Dans notre étude de cas, nous cherchons à comparer les scores de l’Indice des Stratégies de survie simplifié (rCSI) et les scores de consommation alimentaire (SCA ou FCS pour « Food Consumption Score ») et à déterminer s’ils sont corrélés ou non à la taille du ménage (nombre de membres du ménage).
L’hypothèse que nous formulons est qu’un plus le nombre de membres au sein du ménage est grand dans la population bénéficiaire plus les niveaux de sécurité alimentaire seront plus faibles, car l’aide alimentaire fournie par les acteurs humanitaires est souvent de taille ou de valeur standard, et nous savons que près d’un tiers de notre échantillon dépend principalement de l’aide alimentaire pour se procurer sa nourriture.
Nous avons effectué une analyse de corrélation sur le rCSI et le SCA séparément avec la taille du ménage. L’hypothèse voudrait que la taille du ménage ait une corrélation positive avec le rCSI (car des scores rCSI plus élevés signifient des niveaux plus élevés d’insécurité alimentaire), et une corrélation négative avec le SCA (car des scores SCA plus faibles signifient des niveaux plus faibles d’insécurité alimentaire).
Dans notre nuage de points, nous introduisons également une ligne de tendance (ou ligne de correspondance optimale), qui montre une relation linéaire entre les deux variables.
Sur la base de l’analyse ci-dessus et de la direction des lignes de tendance, nous pouvons dire que la taille du ménage est positivement corrélée avec le rCSI et négativement corrélée avec le SCA/FCS. Les résultats suggèrent que l’insécurité alimentaire (mesurée par des scores plus faibles au SCA ou plus élevés au rCSI) est en fait corrélée à la taille du ménage.
À noter : Remarque : Ces conclusions ne sont valables que si votre enquête a été menée avec une méthode d’échantillonnage appropriée.
Vous pouvez également utiliser des mesures statistiques de base pour quantifier la corrélation entre les variables. Le coefficient de corrélation de Pearson est le plus souvent utilisé dans ce cas. La formule pour calculer ceci à la main est quelque peu complexe, mais un logiciel d’analyse de données comme Excel vous permettra de le faire facilement. Le coefficient de corrélation se situe entre -1 et 1, -1 indiquant une corrélation négative parfaite et 1 indiquant une corrélation positive parfaite. Une valeur de zéro (ou proche de) indique qu’il n’y a aucune corrélation entre les variables.
Gardez également à l’esprit que cette statistique n’identifie que la présence d’une corrélation linéaire, qui serait identifiée par une ligne droite sur un diagramme de dispersion. Les corrélations courbes, ou non linéaires, sont plus complexes et doivent être évaluées par le biais de méthodes alternatives.
YRestez toujours prudent lorsque vous interprétez les résultats d’une analyse de corrélation. Ne jamais partir du principe que corrélation = causalité ! On prendra comme exemple classique les données montrant une association entre le nombre de coups de soleil et les ventes de glaces. De toute évidence, les coups de soleil ne poussent pas les gens à acheter plus de glaces. Il nous manque une troisième variable, la température, qui provoque une augmentation conjointe des coups de soleil et des ventes de glaces. Ce site web (disponible en anglais) soulève des exemples intéressants de cas où deux variables sont fortement corrélées mais logiquement totalement indépendantes l’une de l’autre (comme la consommation de poulet par habitant et les importations de pétrole brut des États-Unis).