3.4 Identifier les doublons
Avant de pouvoir analyser vos données, il est important de s’assurer de la fiabilité des données. Dans tout ensemble de données, chaque enregistrement doit correspondre à un identifiant unique. Si l’ensemble de données possède déjà un identifiant unique, il est nécessaire de s’assurer que tous les identifiants des enregistrements soient véritablement uniques, qu’il n’y ait pas de doublons. La recherche de ces doublons est une phase importante du nettoyage de données, car leur présence peut mener à la production d’indicateurs biaisés.
Voici quelques exemples de doublons fréquemment rencontrés dans les ensembles de données utilisés dans le contexte humanitaire :
- Un formulaire d’enquête est saisi à plusieurs reprises dans la base de données, par erreur.
- Une enquête mobile est entamée puis interrompue, puis reprise depuis le début. Imaginons que l’enquête soit entamée auprès d’un ménage donné et qu’un membre du ménage se présente alors que l’entretien est déjà en cours. Le ménage demande alors de tout reprendre depuis le début. Si le premier enregistrement n’est pas supprimé sur le terrain, il apparaîtra deux fois : une première fois de façon incomplète puis une seconde fois en entier.
- Lorsque des bénéficiaires sont enregistrés, certains individus ou ménages peuvent tenter de s’enregistrer deux fois (ou plus).
Ces exemples ne sont pas exhaustifs et il est recommandé de toujours vérifier attentivement la présence d’éventuels doublons dans les ensembles de données avant d’entamer l’analyse.
Il est possible d’identifier les doublons dans Excel avec plusieurs méthodes :
- Dans Données, cliquez sur Outil de données puis Supprimer les doublons.
- Il est aussi possible de mettre en évidence des valeurs uniques ou en double, utilisez la commande mise en forme conditionnelle dans le groupe style de l’onglet Accueil.
- Créer un tableau croisé dynamique avec les données pour identifier les doublons dans une colonne, les tableaux croisés dynamiques pouvant gérer plus rapidement de vastes ensembles de données : faire glisser le champ unique (numéro de domicile, numéro d’enregistrement, numéro de téléphone, etc.) dans “LIGNES” et l’identifiant de l’enregistrement dans “VALEURS” ; le calcul réalisé est “COUNT”. Dans le tableau croisé dynamique, identifiez les champs qui possèdent plusieurs enregistrements. Il s’agit de doublons. Des filtres peuvent être appliqués à l’ensemble de données initial pour procéder à un examen plus approfondi.
Retrouvez plus d’informations disponibles sur les tableaux croisés dynamiques dans cette section.