3.6 Le processus de dé-identification


TABLE DES MATIÈRES
À retenir
Quand on parle de partage ou de rétention/d’archivage de données personnelles, la dé-identification (généralement l’anonymisation) est de mise pour éviter de compromettre des données personnelles, sauf raisons bien spécifiques.
La pseudonymisation est utilisée si vous avez un jour besoin de réassocier les données partagées avec votre base de données initiale
L’anonymisation est utilisée si vous souhaitez encourager les destinataires des données a les conserver, partager et les réutiliser sans risque de compromettre les personnes concernées. Néanmoins, l’anonymisation n’est pas une technique très simple à mettre en place si vous voulez vraiment vous assurer qu’aucune réidentification n’est possible
Les processus de dé-identification ont pour objectif de rendre plus difficile voire impossible l’identification d’une donnée personnelle et permettent de plus facilement partager des données d’intérêt en réduisant ou supprimant les risques de compromettre les données. C’est généralement ce qui est utilisé pour partager des données avec des institutions, partenaires, bailleurs ou le secteur au sens large, sauf raisons bien spécifiques (cf. sous-section 3.5 Les accords de partage de données).
Il y a différents degrés d’identification des données, comme le montre ce visuel de Future of privacy forum (disponible en anglais uniquement).
Nous allons néanmoins nous focaliser sur les deux principales méthodes de dé-identification, l’anonymisation et la pseudonymisation, qui ont des buts différents.
Vous pouvez vous référer à la note d’orientation n°1 d’OCHA (traduite en français par CartONG) Contrôle de la divulgation des données statistiques pour des éclairages complémentaires pour sur la divulgation des informations et le risque de réidentification.
3.6.1 La pseudonymisation, de quoi s’agit-il ?
La pseudonymisation est « le traitement des données personnelles de telle sorte que celles-ci ne puissent plus être attribuées à une personne concernée spécifique sans l’utilisation d’informations supplémentaires » (définition issue du guide sur la protection des données des personnes de Mercy Corps).
Ce procédé permet de limiter les risques d’identifications car il remplace un élément d’identification direct par un autre élément indirect. L’élément indirect d’identification est intact et peut permettre avec l’ajout d’une ou plusieurs informations, de retrouver la personne concernée.
Par exemple, lors de l’établissement d’une liste de patient·es d’une organisation d’urgence médicale, les noms et prénoms sont consignés dans un fichier séparé du reste des informations personnelles et sont remplacés par un code.
Il existe plusieurs techniques de pseudonymisation, dont le système de chiffrement à clé secrète : décryptage possible à condition de connaître la clé.
La pseudonymisation une bonne pratique pour sécuriser les données, car elles ne sont plus reliées à un individu, et limiter les risques de mise en corrélation de données personnelles. Cependant, le caractère personnel des données est conservé et la personne concernée peut être retrouvée si d’autres données sont recoupées (par exemple la BDD initiale avec les « clés » associés).
3.6.2 L’anonymisation qu’est-ce que c’est ?
L’anonymisation «une modification permanente des donnée», « de sorte qu’un individu (ou « personne concernée ») n’est plus identifiable » (définition issue du guide sur la protection des données des personnes de Mercy Corps). Ce processus est irréversible, contrairement à la pseudonimysation.
Les données en contiennent plus aucune information permettant l’identification directe (par exemple, le nom, le prénom) ou indirecte (par exemple : la date de naissance, le nombre de personnes dans un ménage sur une communauté…) d’une personne. Cela permet de supprimer les risques de compromettre les droits des populations concernées et de conserver plus longtemps des jeux de données à des fins de réutilisation, par exemple pour de futurs projets ou dans un but de formation. La législation de la protection des données n’est plus applicable : le transfert de donnée, la durée de conservation, la diffusion sont possibles sans restriction.
La nature de la donnée change après l’anonymisation, le but n’est pas de sécuriser la donnée, mais justement de pouvoir la réutiliser.
La CNIL recommande les conditions suivantes pour établir une technique d’anonymisation appropriée :
- d’identifier les informations à conserver selon leur pertinence (la réutilisation des données doit représenter un intérêt de diffusion pour l’organisation, son staff ou ses partenaires, afin d’améliorer l’efficacité des interventions par exemple) ;
- de supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre une ré-identification aisée des personnes (par exemple, la présence de l’âge des individus peut permettre de ré-identifier très facilement les personnes centenaires ; ou encore le nombre de membres de ménages dans une petite communauté) ;
- de distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables) ;
- de définir la finesse idéale et acceptable pour chaque information conservée (c’est-à-dire le niveau de détail que l’organisation estime utile pour la réutilisation).
Il existe deux grands types de techniques d’anonymisation (dont les différents aspects sont détaillés dans l’avis sur les techniques d’anonymisation des données du « groupe 29 », ancien comité européen de la protection des données) :
- la randomisation : cette technique s’appuie sur l’altération de données et de leur fiabilité, qui deviennent suffisamment incertaines pour ne plus être rattachées à une personne (par exemple, en rendant une donnée moins précise, en ajoutant ou enlevant 10cm à la taille mesurée d’une personne).
- la généralisation : ce procédé vise à modifier l’échelle d’une donnée pour la généraliser ou diluer (par exemple, au mois plutôt qu’à la semaine).
Cette dernière, souvent plus facile à mettre en place, est la plus utilisée par les ONG.
Depuis 2018, le Centre pour les données humanitaires a mené une évaluation sur des jeux de données de la plateforme Humanitarian Data Exchange (HDX) et a constaté un risque trop élevé de divulgation de l’identité des personnes. Il utilise le contrôle de divulgation statistique CDS (via un logiciel libre - open source - appelé SDCMicro, ressource disponible seulement en anglais), qui permet de s’assurer que les données anonymisées ne comportent pas de risque de ré identification (la note d’orientation n°1 d’OCHA (traduite en français par CartONG) Contrôle de la divulgation des données statistiques) .
Quoi qu’il en soit, il est important pour les ONG de rester au fait des nouvelles techniques et technologies d’anonymisation vu à quel point elles se périment vite (en particulier quand on commence à parler d’intelligence artificielle, dont on ne mesure pas encore les conséquences en termes de bases de données personnelles et recoupages potentiels).