5.3 Comment traiter de la donnée sensible


TABLE DES MATIÈRES
- Mitiger les risques en clarifiant les besoins
- Rendre la donnée exploitable
- Aggrégation
- Aggrégation selon des limites administratives
- Aggrégation selon un maillage régulier
- Le niveau de granularite adequat : rendre les coordonnees gps approximatives pour preserver l’anomymat
- Anonymisation
- Limiter les attributs
Mitiger les risques en clarifiant les besoins
Il est important de se dire que nous sommes tou.t.e.s responsable.s face à la donnée sensible. Il est alors important d’utiliser son bon sens face à cette donnée.
L’une des premières étapes est de prendre du recul sur ce qui est attendu de cette donnée :
- Cette utilisation est-elle vraiment pertinente ?
- Peut-on trouver un moyen de réduire le risque en utilisant cette donnée ?
Se poser ses questions peut permettre de mieux définir ou redéfinir le besoin pour éviter d’utiliser de la donnée personnelle ou sensible ou de juger de sa sensibilité dans le contexte du besoin. Il est toujours important de prendre des décisions communes et claires et de ne pas s’isoler pour prendre des choix qui peuvent engendrer des risques. Si, après discussion, le doute persiste, il est préférable de ne pas utiliser la donnée.
Rendre la donnée exploitable
Suite aux différents cas de confrontation face à de la donnée sensible, on peut se demander comment intégrer cette donnée dans nos analyses et nos productions (cartes, données) sans risquer de mettre en danger les personnes concernées.
Pour rappel, il s’agit ici d’appliquer à la gestion des données le principe humanitaire de ne pas nuire (« do no harm principle » en anglais).
L’unique moyen de traiter et d’exploiter une donnée sensible est de la rendre anonyme, afin qu’elle puisse être représentée sans qu’aucune identification à l’échelon individuel puissent-être réalisé. En effet, quand un jeu de données est anonymisé correctement, il perd les attributs des données personnelles et devient plus facile et plus sûr à traiter. Grâce à différentes méthodes de traitement et d’analyse de la donnée présentées ci-après, on peut tirer parti d’une donnée à première vue inutilisable du fait de son caractère sensible. Voici les principaux scénarios qui pourraient porté atteinte à la protection des données / protection de la vie privée, et les différentes solutions SIG existantes pour y remédier, et pour vous permettre de représenter vos données.
Aggrégation
La principale méthode d’anonymisation de donnée géographique sensible est l’aggrégation, il s’agit de « noyer » l’information unique au sein d’un groupe ou d’un zone spatiale qui ne permet pas d’identifier les éléments individuellement. On parle aussi de « clusters ».
Type de données : Coordonnées géographiques personnelles
Problématique : Si cette donnée est essentielle pour l’analyse spatiale que l’on peut en faire, elle met à risque les personnes concernées et peut se révéler très dangereuse dans certains cas (par exemple, des coordonnées permettant d’identifier des patients porteurs de virus tels que le HIV ou Ebola ou de maladie comme la tuberculose).
Exemple : la localisation de patients pour une aire de chalandise d’un centre de santé. Il est nécessaire de connaître la localisation de personnes pour mesurer la distance du domicile à la structure de santé la plus proche. Dans ce cas, la distance à l’hôpital le plus proche n’est pas une donnée sensible, mais les coordonnées, elles, le sont. Les coordonnées peuvent permettre l’identification de la localisation précise d’un logement/ménage/personne.
Solution : Il faut un compromis entre la localisation des données (la précision), et l’usage, tout en respectant la confidentialité. Pour se faire, il est possible d’aggréger les données dans une entité zonale, comme une zone administrative ou un maillage régulier. Cela permet également de mieux visualiser les données (via des couleurs graduées ou des symboles proportionnels), tout en respectant la confidentialité des données.
Aggrégation selon des limites administratives
Exemple de représentation de patients de manière ponctuelle (à gauche) et agrégée (à droite)
Si cette méthode permet de respecter la confidentialité concernant la localisation de personnes, elle peut cependant être trop générale et imprécise pour des analyses et des prises de décisions.
Aggrégation selon un maillage régulier
Une autre méthode consiste à aggréger les données sur base d’une grille qui recouvre la zone d’étude. Ce maillage peut être de différent types (carroyage, nid d’abeille).
Exemple d’aggrégation par carroyage pour passer d’une représentation ponctuelle (à gauche) à une représentation aggrégée (à droite)
Le carroyage est la forme la plus couramment utilisée dans les méthodes d’aggrégation, mais les hexagones (ou nid d’abeille) peuvent être parfois mieux adaptés à votre cas d’étude.
Source : Smiley, K.T., Noy, I., Wehner, M.F. et al. Social inequalities in climate change-attributed impacts of Hurricane Harvey. Nat Commun 1}, 3418 (2022).
Illustration du carroyage en hexagone : Chaque hexagone représente le nombre de bâtiments résidentiels qui n’auraient pas été inondés s’il n’y avait eu l’impact du changement climatique dans le comté de Harris (Texas) pendant l’Ouragan Harvey.
Voici quelques raisons parmi d’autres favorisant l’aggrégation en grille hexagonale :
- L’hexagone a un rapport périmètre/surface plus faible, réduisant ainsi les déformations d’échantillonnage provoquées par les effets de tronçon, plus présents dans le carroyage.
- En comparant un carré ou un hexagone de surfaces égales, les points situés au sein d’un hexagone sont plus proches géographiquement du centroïde de cet hexagone.
- Le schéma hexagonale permet de voir plus clairement les tendances des données
- Pour les analyses avancées nécessitant d’inclure les voisins les plus proches (analyse de points chauds), l’hexagone inclut 6 voisins proches, alors que le carré n’en inclut que 4.
Source : ESRI, Pourquoi les hexagones ?
Pour déterminer la taille de la cellule, il faut respecter deux critères importants :
- Une granularité suffisante pour permettre une analyse pertinente
- Garder l’impossibilité d’identifier visuellement la localisation de la personne (avec une attention particulière aux zones rurales ou très peu peuplées).
Le niveau de granularite adequat : rendre les coordonnees gps approximatives pour preserver l’anomymat
Type de données : Coordonnées géographiques personnelles (exemple : localisation de ménages enquêtés).
Problématique : On cherche à représenter les informations issus des entretiens dans une représentation ponctuelle sans permettre d’identifier les ménages enquêtés.
Solution : Afin de réduire la sensibilité de la localisation de l’information, une mesure simple est de rendre les coordonnées GPS approximatives. Cette étape peut être réalisée dès la collecte de l’information en faisant le choix de ne collecter que des localisations approximatives. Selon le contexte de collecte, on peut réduire la précision à une centaine de mètres voire plus.
Dans le cas où la donnée possède une localisation précise , il est toujours possible d’effectuer un traitement de celle-ci pour la rendre moins précise.
Pour ce faire, une des méthodes les plus simples est d’arrondir les coordonnées en degré décimal. Moins on a de décimales dans nos coordonnées, moins la localisation sera précise.
Exemple d’arrondi de coordonnées et du rendu selon le nombres de décimales
Cela permet de réduire la précision, mais peut créer un effet « grille » où plusieurs points peuvent se retrouver superposés sur une même coordonnée.
Anonymisation
S’il peut être tentant d’utiliser des cartes pour localiser son équipe ou ses bénéficiaires pour plein de bonnes pratiques , on se heurte immédiatement aux problèmes de respect de la confidentialité et de consentement.
Si le besoin est précis et légitime, une carte contenant des noms ou autres données d’identification peut bien sûr être créée… À la condition que les personnes concernées en soient informées et qu’elles aient l’occasion de donner leur consentement et de pouvoir exercer leurs droits (ce qui peut s’avérer compliqué). A défaut ou par manque de temps, l’accès à de telles cartes doit être strictement encadré et limité aux seules personnes qui ont réellement besoin de cet outil.
Enfin, il faudra prendre en compte la pérennité ou plutôt l’obsolescence rapide de telles informations et prévoir la destruction de cette carte.
Type de données : Coordonnées géographiques personnelles (exemple : localisation du personnel).
Problématique : On cherche à représenter la localisation du personnel dans un contexte de violences accrues (guerre, émeutes) sans pour autant vouloir indiquer leurs noms et professions dans l’organisation.
L’utilité d’une telle carte présente par nature son principal risque et capacité de nuisance : si la carte est utilisée par des personnes malintentionnées, toutes les personnes concernées sont mises en péril.
Solution : Si une demande interne nécessite de mettre sur une carte la localisation du personnel de l’organisation, il reste possible de réaliser une carte confidentielle qui contiendra cette localisation mais qui anonymisera les employé.e.s par l’utilisation d’identifiants créés et communiqués seulement aux personnes concernées.
Pour ce faire, un identifiant unique peut être créée pour chaque localisation, et sera affiché sur la carte. Ensuite, un tableau en annexe fera correspondre chaque identifiant à un nom et une profession par exemple.
Là aussi, une réflexion quant au besoin de granularité de l’information représentée est nécessaire.
Limiter les attributs
Enfin, dans tous les cas de traitement de donnée personnelle, il est important de ne garder que les attributs nécessaires à la carte ou aux analyses. De nombreuses informations peuvent être enregistrées et stockées dans des fichiers alors qu’elles ne sont pas requises.