3.1 Par où commencer le nettoyage des données ?
28-Feb-2022
2 mins
En somme, le processus de nettoyage des données peut être simplifié en 3 tâches principales, notamment : 1) vérification de la cohérence logique ; 2) vérification de la fiabilité ; et 3) correction des erreurs.
Toutefois, la mise en œuvre de ces 3 composantes nécessite d’abord une série d’étapes spécifiques, que nous détaillerons dans les sections suivantes :
- Avant toute modification exportez vos données et créez une copie de sauvegarde des données d’origine dans un classeur séparé. Voir la section 3.2.1. Obtenir vos données. Cela est indispensable au cas où auriez à récupérer des données à un moment quelconque, et pour vous assurer que toute modification peut être revue et répliquée.
- Formatez vos données dans une base de données lisible, ce qui implique généralement d’adapter les données sous forme de tableau avec des noms de colonnes clairs avec 1 ligne par entrée et pas de cellules fusionnées ! Voir les sections 3.2.2. Mettre vos données sous forme de tableau et 3.2.3. Formater votre jeu de données.
-
Repérez les erreurs et les incohérences en filtrant l’ensemble de données (doublons, erreurs, valeurs aberrantes, données manquantes, etc.). Voir la section 3.3 Gérer les doublons, erreurs, valeurs aberrantes et données manquantes.
- La façon la plus efficace de démarrer est de visualiser vos données. La visualisation des données et le filtrage des données peuvent clairement vous indiquer s’il y a des doublons, des fautes d’orthographe, etc.
- Vérifier la cohérence et la fiabilité logiques
- Analyser les données à l’aide de fonctions Excel, de visualisations (graphiques) ou de tableaux croisés dynamiques.
- Les données doivent être triangulées avec d’autres sources, c’est-à-dire comparer les résultats à d’autres données connexes (lieux/enquêtes, etc.). Y a-t-il des conclusions qui semblent totalement irréalistes ? Bien sûr, il peut s’agir là de conclusions valides, mais les données et/ou le questionnaire doivent être examinés si la triangulation donne des résultats très inattendus.
-
Prendre des mesures (correction, suppression ou modification des données).
- Tout d’abord, adapter les erreurs qui ne nécessitent pas de manipulation de colonne, comme se débarrasser des espaces supplémentaires.
- Ensuite, effectuez les tâches qui nécessitent une manipulation de la colonne (par ex. modification des types de données, ajout de colonnes de vérification).
- Recodez ou regroupez certaines variables pour faciliter l’analyse. Reportez-vous à la section 3.4 Recoder des variables.
- Avant, pendant et après chacune de ces étapes, vous devez examiner les données pour confirmer que vous n’avez pas apporté de modifications inattendues (visuellement ou à l’aide de filtres, etc.) !
- Assurez-vous que toutes les modifications apportées à votre jeu de données ont été consignées dans un « journal des modifications ».
Passez en revue la section suivante pour en savoir plus sur chaque étape.