Link Search Menu Expand Document
Boîte à outils analyse de données quantitatives

3.3.4 Données manquantes


Les valeurs manquantes ou aberrantes sont présentes dans pratiquement toutes les bases de données. Tout comme les valeurs extrêmes, la présence de valeurs manquantes peut conduire à des analyses fallacieuses.

Par conséquent, vous devriez être en mesure de repérer et de mettre en exergue les emplacements où il manque des valeurs. Si vous utilisez Excel pour analyser vos données voici comment vous pouvez les repérer. .

Il existe en réalité différents types de valeurs manquantes que vous devez connaître (Source : la ressource ACAPS datant de 2016, Technical Brief : Data Cleaning, disponible en anglais) :

  • Une cellule vide peut en fait signifier zéro, « aucun », « non » ou « sans objet ».
  • Une variable peut avoir été manquée et restée sans réponse pendant l’enquête, et ce de manière involontaire.
  • Lorsqu’une variable n’a délibérément pas reçu de réponse. Cela se produit souvent lorsque la question porte à confusion, est déplacée ou perçue comme sensible par l’enquêteur ou l’enquêté. Cela dépend souvent de facteurs contextuels (si la conception d’outils se passent bien, et des tests sont effectués cela ne devrait pas se produire). Toutefois, ce problème peut également être un constat intéressant à mentionner dans le rapport d’analyse comme biais potentiel, notamment pour justifier le réglage du questionnaire en vue de poser des questions plus appropriées à l’avenir.

Que faire des valeurs manquantes ?

  • Remplacer les cellules vides qui ont un sens par zéro, « non », « sans objet »
    • Faites attention à remplacer les cellules vides par zéro, car elles auront certainement un impact sur les résultats.
  • Exclure les sujets / points de données qui ont des valeurs manquantes sur l’une des variables en cours d’analyse.
    • Ce qui signifie que la taille de l’échantillon change d’une variable à l’autre.
  • Supprimer tous les cas comportant des valeurs manquantes, et par conséquent conserver un ensemble de données contenant uniquement des données complètes.
    • Il pourrait en résulter que la taille de l’échantillon soit insuffisante, et que l’analyse soit biaisée si les profils des sujets avec des valeurs manquantes sont semblables (par ex. que des femmes).