6.4 Traiter, nettoyer, valider
TABLE DES MATIÈRES
- Cas d’étude : une sélection de qualité douteuse de bénéficiaires
- Cas d’étude : Un nettoyage des données improvisé et désordonné
- Cas d’étude : Pseudonymisation mal maîtrisée
- Ressources clés
Cas d’étude : une sélection de qualité douteuse de bénéficiaires
La situation
Suite à une collecte de données, vous êtes sollicité en tant que spécialiste en gestion de données pour préparer les données en vue de sélectionner des bénéficiaires pour un programme de cash transfer.
Vous vous rendez compte d’un certain nombre d’incohérences et d’inexactitudes dans la base de données en question, qui pourraient porter préjudice à certains potentiels bénéficiaires. Mais, vu que le temps presse et que la sélection doit être faite et communiquée le lendemain, vous ne voyez d’autre choix que de transférer la base de données telle quelle au chef de projet en charge de l’analyse.
Quels sont les risques potentiels ?
- Analyse erronée
- Réponse apportée non éthique et contestable
- Faible pertinence et efficacité de la réponse apportée
- Risques réputationnels, perte de confiance des bénéficiaires vis-à-vis de l’ONG
Que faire ?
Au vu des conséquences potentielles, c’est-à-dire :
- le choix des “mauvais” bénéficiaires pour un accès à un service de soutien financier,
- la qualité douteuse de la base de données,
Il est raisonnable de se demander si les personnes ayant le plus besoin de l’assistance auront accès au service en question ?
Si les mesures d’atténuation des risques seront décidées en fonction des conséquences potentielles dans cette situation particulière, il ne faut pas oublier que cela fait partie d’une gestion responsable de données d’avoir une donnée fiable pour la prise de décision, dans le respect constant du principe do no harm.
Si la qualité est trop dégradée, organiser une collecte complémentaire qui – quoique couteuse- pourrait permettre à l’ONG de s’assurer d’une sélection objective de bénéficiaires.
Comment la situation aurait pu être évitée ?
Mieux la collecte est préparée en amont (avec des collectes qualitatives pour alimenter l’enquête en amont, un questionnaire éprouvé, des tests terrain…), mieux la collecte se déroulera. Vous pouvez également rectifier le tir rapidement au besoin pendant la collecte en identifiant des erreurs ou incohérences par le biais des contrôles qualité, de sessions d’échanges quotidiens avec les enquêteurs, de discussions avec les responsables thématiques connaissant la zone etc.
Une donnée de qualité est un support essentiel à une action de qualité.
Cas d’étude : Un nettoyage des données improvisé et désordonné
La situation
Une gestionnaire de données procède à une préparation des données collectées avant de l’envoyer à la personne qui fera l’analyse. Cette personne remarque ce qu’elle perçoit comme des incohérences et des erreurs dans les données collectées. Elle décide d’elle-même d’ajuster et corriger les données sans se référer au plan d’analyse, ni consulter les membres de l’équipe qui ont effectué la collecte ou la personne qui fera l’analyse. Aucune documentation n’a été produite pour expliquer ces modifications, ni versioning de fichier effectuer.
Quels sont les risques potentiels ?
- Des résultats d’analyse erronés, biaisés voire hors sujet si des erreurs sont introduites dans les données
- Pour les équipes, pour l’ONG, un risque de perte de temps et des surcoûts inutiles
- Un risque de prendre de mauvaises décisions avec une faible pertinence et efficacité de la réponse apportée car les équipes n’auront plus accès à une donnée de qualité. Peut s’en suivre un risque réputationnel pour l’ONG
- Mauvais ciblage d’une population vulnérable
Que faire ?
Commencer par récupérer les données originales, et si possible faire une comparaison pour identifier ce qui a été modifié ou effacé. Évaluez s’il est nécessaire de tout reprendre ou si seulement les données qui ont été modifiées doivent être corrigées.
S’il y en a un, reprendre le nettoyage des données en se basant sur le plan d’analyse et documenter la procédure et les actions effectuées pendant le nettoyage des données de manière exhaustive pour être à même d’en informer la personne qui procédera à l’analyse.
Comment la situation aurait pu être évitée ?
En premier lieu, développer un plan d’analyse lors de la construction d’un protocole d’enquête pour établir un cadre qui permettra de guider le processus de nettoyage des données car celui sera effectué pour correspondre au plus près aux besoins de l’analyse qui suivra. Ce plan pourrait s’accompagner d’un protocole visant à clarifier la procédure à suivre en cas de questionnement sur la validité ou qualité des données.
Accompagner et former les gestionnaires de données chargés d’effectuer le nettoyage. De manière complémentaire, faire en sorte que ces mêmes gestionnaires de données soient impliqués dans le processus de collecte des données, par exemple en s’assurant de leur présence aux réunions de planification ou en leur communiquant les comptes-rendus de réunion, leur permettrait de mieux appréhender le contexte de la collecte.
De plus, avoir une personne ressource qui soit disponible pour répondre aux questions tout au long du cycle de collecte, nettoyage et analyse des données permettrait de limiter ce genre de situation.
Cas d’étude : Pseudonymisation mal maîtrisée
La situation
Le siège demande à l’équipe terrain de pseudonymiser les données des bénéficiaires avant de partager ces données avec le prestataire chargé de faire l’analyse. Mais l’équipe terrain ne comprend pas bien cette notion et crée un code d’identification qui inclut le nom de famille des bénéficiaires. La base de données est envoyée au prestataire telle quelle.
Quels sont les risques potentiels ?
- Divulgation de données personnelles et sensibles à des tiers, non conformes aux principes humanitaires et de la protection des données
- Risque de causer des dommages aux individus et à leurs communautés, en particulier lorsque les données sont sensibles
- Perte de contrôle de ce qui pourra être fait avec de telles données
- Ciblage potentiel d’une population vulnérable par d’autres acteurs si l’information n’a pas été suffisamment protégée par le tier responsable de l’analyse
- Risques réputationnels pour l’ONG
Que faire ?
- Contacter le prestataire responsable de l’analyse et lui demander d’effacer les données reçues
- Former l’équipe et/ou mettre à disposition un guide sur les principes de pseudonymisation & anonymisation
- Accompagner les équipes dans la création d’un nouveau format de code d’identification
Comment la situation aurait pu être évitée ?
Mettre en place une formation sur la gestion responsable des données qui inclut bien sûr les principes de pseudonymisation & anonymisation et leur importance. Mettre à disposition des ressources facilement accessibles et compréhensibles sur les procédures de pseudonymisation & anonymisation qui incluent une liste de bonnes pratiques et de bons et mauvais exemples.
Pour aller plus loin, et agir de manière plus globale, considérez la mise en place d’un ‘Accord de transfert de données’ (“Data transfer agreement” - DTA) avec chaque prestataire qui va traiter des données. Celui-ci précise clairement les rôles et les responsabilités des différentes parties concernées et stipule des restrictions ou des mesures de protection supplémentaires sur la manière dont les données sont traitées et partagées. Il peut être complémenté par un protocole de partage de données avec un système de validation pour chaque occasion où des données sensibles doivent être partagées avec des tiers
Ressources clés
- Vous trouverez des lectures ACAPS intéressantes, telles : la note technique et poster associé sur le fait de détecter les données dont la qualité est discutable, ou la note technique sur le nettoyage de données
- La section 7.2 de La boîte à outils sur la gestion responsable des données de CALP Network