4.2 Reconnaître les types de données de base
Il existe un certain nombre de façons différentes de classer les données. Au niveau le plus simple, nous pouvons considérer les données comme qualitatives ou quantitatives.
Les données quantitatives sont numériques et nous indiquent donc des choses qui peuvent être mesurées ou comptées (comme votre taille ou votre poids). Les données quantitatives peuvent également être continues ou discrètes. Les données continues varient en permanence le long d’une plage numérique avec une séparation infiniment petite entre les observations. Par exemple, 155 cm, 155,124 cm et 116 cm, seraient toutes des mesures valides de la taille d’un individu. Les variables discrètes, en revanche, n’ont qu’un certain nombre de valeurs valides. Par exemple, nous ne pouvons que compter un nombre de personnes à l’aide de valeurs entières, telles que 1 200 ou 54. Il n’est pas possible de compter 54,5 personnes.
Dans l’étude de cas, par exemple, il y a un certain nombre de variables qui fournissent des données quantitatives discrètes. Par exemple, le “Nombre total de membres du ménage” doit être calculé comme un nombre entier, et est donc une variable discrète et quantitative. D’autres variables comprennent :
- Âge du chef de ménage et des autres membres du ménage.
- Nombre de jours pendant lesquels la nourriture de la dernière distribution a duré au sein du ménage.
- Nombre de jours où le ménage a eu recours à des stratégies d’adaptation à caractère négatif pour accéder à la nourriture (dans le cadre de l’indice de réduction des stratégies d’adaptation).
- Nombre de jours au cours de la dernière semaine où le ménage a consommé des aliments provenant de différents groupes alimentaires (dans le cadre du calcul de l’indice de consommation alimentaire).
À noter : Le ‘temps’ est une variable continue qui peut être vue dans les ‘métadonnées’ de l’enquête sous la variable ‘Temps de soumission’, mais l’indicateur ci-dessus demande spécifiquement le nombre de ‘jours’, plutôt que le temps.
Les données qualitatives quant à elles sont descriptives et nous renseignent sur les attributs, les catégories ou les descriptions des choses (comme la couleur de vos cheveux). Les données qualitatives peuvent être nominales ou ordinales. Les variables nominales n’ont pas d’ordre ou de classement logique. Par exemple, les données sur la couleur des yeux, bleu vs marron vs vert, n’ont pas d’ordre logique. Comme leur nom l’indique, les données ordinales ont un ordre logique. Les Phases du cadre intégré de classification de la sécurité alimentaire (« IPC ») (disponible en anglais) sont un bon exemple de variable ordinale.
Comme le montre l’exemple ci-dessus, les données qualitatives sont parfois codées selon des niveaux numériques. Cela signifie que la présence de nombres dans vos données n’implique pas nécessairement que vous n’avez pas de variables qualitatives. Un dictionnaire de données est utile ici pour comprendre où c’est le cas.
L’étude de cas comporte un certain nombre de variables différentes qui fournissent des données qualitatives, tant nominales qu’ordinales. Par exemple, les données relatives à la question : “Quelle est la principale source d’eau potable pour les membres de votre ménage ?” est une variable qualitative et nominale ; les répondants peuvent choisir parmi des options de réponse prédéfinies qui n’ont pas d’ordre logique (par exemple, robinet public/pompes à main, vendeurs d’eau, etc.) Les options de réponse sont affichées sous forme de nombres codés, mais cela ne signifie pas que les données ne sont pas qualitatives.
Les Score de Consommation Alimentaire (SCA) classent chaque ménage dans une catégorie de “seuils” (“acceptable”, “limite” et “médiocre”), sur la base d’un calcul des scores de consommation des différents groupes alimentaires au cours de la semaine écoulée. Ces seuils fournissent des données qualitatives et ordinales à chaque ménage, dans la mesure où il existe un ordre clair et logique entre les données.
Comme vous pouvez le voir dans le plan d’analyse (et l’analyse), malgré la présence de données “qualitatives”, nous pouvons toujours analyser les données qualitatives par des mesures quantitatives. Par exemple, nous pouvons calculer le pourcentage de ménages correspondant à chaque seuil du SCA pour mesurer la sécurité alimentaire de la population de l’échantillon.
Il est également intéressant pour vous de découvrir comment votre logiciel d’analyse va stocker chacune de vos variables. Dans certains cas, les variables numériques peuvent être stockées en tant que données de texte, ce qui empêche votre logiciel d’effectuer des calculs numériques sur ces données. Un logiciel tel qu’Excel vous avertit souvent de cette erreur et vous permet d’ajuster le format des données. Vous pouvez consulter la section 3 : Obtenir des données propres et utilisables.
Les données qualitatives et quantitatives seront gérées différemment dans chaque analyse. En général, les données quantitatives sont plus pertinentes pour l’analyse statistique. Comme nous l’évoquerons plus en détail dans la section suivante, nous pouvons calculer des éléments comme la moyenne, la médiane et l’écart-type des variables quantitatives.
Cet article sur les types de variables (disponible en anglais) fournit des informations supplémentaires.
Vous pouvez revoir les questions de l’enquête de l’étude de cas et le type de variables qui en résulte dans le dictionnaire de donnée, disponible ici.