Link Search Menu Expand Document
Boîte à outils Excel

3 Nettoyer ses données


Les données sont des faits ou chiffres bruts non organisés qui doivent être traités et analysés. Les variables sont un type de données susceptibles de changer. Elles constituent la base de la plupart des analyses réalisées pour comprendre les situations, les tendances et les liens.

Les données et les variables peuvent prendre différentes formes : simples et aléatoires en apparence, ou statistiques et complexes en apparence. Quel que soit le cas, les données et les variables constituent la base de l’analyse mais ne sont d’aucune utilité tant qu’elles ne sont pas traitées, analysées et finalement converties en informations. Avant d’être analysées, les données doivent donc d’abord être vérifiées afin de détecter d’éventuelles erreurs. Ainsi, le nettoyage de bases de données est principalement un processus logique, qui consiste notamment à analyser la cohérence des données et à effectuer une triangulation avec d’autres informations disponibles

Certaines erreurs sont difficilement détectables avant le début de l’analyse ; par exemple, certaines valeurs aberrantes sont identifiables uniquement lorsque l’on connait mieux les données. Néanmoins, il est préférable de détecter le maximum d’erreurs possibles afin d’éviter de devoir faire machine arrière au moment de l’analyse des données.

Assurez-vous que toutes les modifications apportées à votre jeu de données ont été consignées dans un « journal des modifications ».

Ce module se compose de 7 sous-parties :

Cette section fait souvent référence à :