Link Search Menu Expand Document
Boîte à outils analyse de données quantitatives

3.3.1 Doublons


Pour qu’une enquête soit fiable, il est essentiel que chaque enregistrement ne se trouve qu’une seule fois dans la base de données, or il existe parfois plusieurs enregistrements pour le même sujet.

Voici quelques exemples de doublons fréquemment rencontrés dans les ensembles de données utilisés dans le contexte humanitaire :

  1. Un formulaire d’enquête est saisi à plusieurs reprises dans la base de données, par erreur.
  2. Une enquête mobile est entamée puis interrompue, puis reprise depuis le début. Imaginons que l’enquête soit entamée auprès d’un ménage donné et qu’un membre du ménage se présente alors que l’entretien est déjà en cours. Le ménage demande alors de tout reprendre depuis le début. Si le premier enregistrement n’est pas supprimé sur le terrain, il apparaîtra deux fois : une première fois de façon incomplète puis une seconde fois en entier.
  3. Lorsque des bénéficiaires sont enregistrés, certains individus ou ménages peuvent tenter de s’enregistrer deux fois (ou plus).

Ces exemples ne sont pas exhaustifs et il est recommandé de toujours vérifier attentivement la présence d’éventuels doublons dans les ensembles de données avant d’entamer l’analyse.

Pour ajuster facilement les doublons, la méthode la plus simple consiste à s’assurer que chaque enregistrement possède un identifiant unique. Si l’ensemble de données possède déjà un identifiant unique, il est nécessaire de s’assurer que tous les identifiants des enregistrements soient véritablement uniques, qu’il n’y ait pas de doublons. C’est toujours mieux si ces identifiants uniques sont des chiffres, mais ils peuvent également inclure des valeurs alphanumériques. Les noms ne sont toutefois pas toujours le meilleur identifiant, car il est plus probable de rencontrer des fautes d’orthographe ou des homonymes.

  • Si vous n’avez pas réfléchi à un bon système d’identifiant unique, vous devrez en créer un avec l’information déjà présente dans la base de données (par ex. âge + localisation + heure d’enregistrement).

La recherche de ces doublons est une phase importante du nettoyage de données, car leur présence peut mener à la production d’indicateurs biaisés. Chaque outil a différentes manières de repérer les doublons (si vous utilisez Excel, vous pouvez revoir la méthode ici).

La collecte de données avec les outils MDC peut réellement vous aider à repérer les doublons et les erreurs grâce aux métadonnées, telles que l’heure de collecte des données (début-fin), l’énumérateur ou un identifiant unique qui est automatiquement capturé.

Que faire des doublons ?

Lorsque vous savez que 2 entrées sont des doublons (collecte de données sur le même sujet), vous ne devez conserver qu’un seul enregistrement. Si des données différentes sont saisies pour la même personne concernée (par exemple, individu, ménage, etc.), essayez de savoir par le biais des métadonnées ou en communiquant avec l’enquêteur quel enregistrement doit être conservé.

Attention : Ici, nous excluons la collecte de données longitudinales (collecte de données qui entend assurer un suivi de la même information dans le temps, par ex. le poids du même enfant au fil du temps), où il est normal et prévu d’obtenir divers enregistrements pour le même sujet à différents moments dans le temps