3.4 Recoder les variables


Afin de faciliter l’analyse, il vous faudra peut-être recoder certaines variables spécifiques pour qu’elles correspondent à vos besoins d’analyse.
Disons par exemple que vous voulez analyser une réponse spécifique à votre enquête par rapport à l’âge des répondants. Vous devrez donc les recoder en groupes d’âge pour avoir une analyse assimilable.
Constatez qu’il est plus facile de traiter les informations dans le deuxième exemple.
Dans notre étude de cas, l’âge a été recodé en groupes d’âge pour faciliter l’analyse démographique, y compris le développement de pyramides des âges de l’échantillon et le calcul du ratio de dépendance.
Notre étude de cas comprend un échantillon de 92 ménages, qui inclut des données sur l’âge et le sexe de 392 individus.
Tout d’abord, nous pouvons recoder l’âge de chaque individu en catégories de 5 ans. Ceci peut être fait par une fonction COUNTIFS avec les variables ‘âge’ et ‘sexe’.
Sur la base du recodage, nous pouvons alors calculer le pourcentage de chaque groupe d’âge par sexe dans l’ensemble de l’échantillon, et visualiser les données sous la forme d’une pyramide des âges.
(Consultez l’analyse de l’étude de cas ici pour voir la syntaxe Excel du recodage et de l’analyse).
Dans son dossier technique sur le nettoyage des données, ACAPS dresse une liste rigoureuse de types de recodage à examiner avant l’analyse (source : Data Cleaning, ACAPS, 2016, pg. 7 - disponible en anglais) :
- Mise en forme : date (jour, mois et année), préfixes pour un meilleur tri dans les tableaux
- Arrondir les variables continues
- Syntaxe : traduction, style de langue et simplification
- Recodage d’une variable catégorique (par exemple, origine ethnique, profession, catégorie « autre », corrections orthographiques, etc.)
- Recodage d’une variable continue (par exemple, âge) en une variable catégorique (par exemple, groupe d’âge)
- Combinaison des valeurs d’une variable en moins de catégories (par exemple, le regroupement de tous les problèmes causés par les contraintes d’accès)
- Combinaison de plusieurs variables pour créer une nouvelle variable (p. ex., le score de consommation alimentaire, l’établissement d’un indice basé sur un ensemble de variables)
- Définition d’une condition basée sur certains points de seuil (p. ex. population « à risque » vs « à risque aigu »)
- Modification d’un niveau de mesure (par exemple, d’une échelle intervalle à ordinale)