Gouvernance de l'information relative au SIG [fermé]

22

Je travaille souvent sur la cartographie de données sensibles au niveau des patients. Bien que je pense avoir une bonne compréhension de nombreux problèmes de gouvernance à ce sujet (c'est-à-dire quand utiliser les techniques de binning et de k-anonymat ), mais j'aimerais améliorer mes connaissances à ce sujet.

Voici un bon exemple de la raison pour laquelle cela est important: Confidentialité spatiale et SIG: repenser les sites de mortalité à partir de cartes publiées sur l'ouragan Katrina

Quelqu'un a-t-il de bonnes règles de base à utiliser lors du mappage de données sensibles?

Existe-t-il de bonnes ressources qui couvrent différentes méthodes de protection de la confidentialité ou fournissent des conseils en la matière?

Délabré
la source
2
+1 ( Soit dit en passant , une méthode d'anonymisation des données suggérée dans un fil de discussion précédent apparaît sur gis.stackexchange.com/questions/31236/… ) Pourriez-vous clarifier ce que vous entendez par "règles empiriques"? Recherchez-vous des solutions techniques pour masquer les détails des données ou cherchez-vous des conseils sur le moment et la quantité de données à protéger?
whuber
1
Des solutions principalement techniques, bien que des indications sur le niveau de protection seraient également utiles. Je vois cela comme allant de pair. Par exemple, des données très sensibles constituées de nombreux petits nombres devraient être affichées en utilisant la technique X ou la technique Y si des informations démographiques sont incluses. J'envisageais d'utiliser l'hex-binning pour une tâche, mais soudain, je n'avais aucune idée de la population dans chaque hexagone. Que se passe-t-il si j'affiche une valeur de 20 et que je constate qu'il n'y a que 20 résidents dans cet hexagone? J'ai également récemment entendu parler du problème des unités aériennes modifiables à ce sujet.
Tumbledown
J'ai voté pour que cela soit trop large car il cherche à la fois une liste de "règles empiriques" et une liste de ressources.
PolyGeo

Réponses:

8

Cette discussion est absolument nécessaire dans la profession des SIG, et je blâme beaucoup l'enseignement supérieur pour avoir négligé ce sujet.

Cela dit, voici une documentation intéressante, sinon dépassée, sur le sujet. Le seul véritable consensus entre ces ressources est qu'il n'y a pas de consensus dans la profession des SIG en ce qui concerne la vie privée, mais cela devrait être une préoccupation majeure.

Ethique du SIG | Jeremy Crampton

Protection de la vie privée lors de l'utilisation de systèmes d'information géographique | Harlan J. Onsrud, Jeff P. Johnson et Xavier Lopez | LIEN MIS À JOUR 1/11/17

Intimité et confidentialité dans les SIG de la santé LIEN MIS À JOUR 1/11/17

Sean Adkins
la source
1
Voté ceci comme soulignant vraiment la difficulté inhérente (encore) dans ce domaine. Pickles a vraiment (et exprès) ouvert une boîte de vers si massive avec ses observations qu'il est presque impossible de traiter tous les actes possibles de non-divulgation. Il y a toujours le problème épineux des connaissances contextuelles qui influencent une revendication de divulgation ainsi que des connaissances appliquées de l'extérieur de la ressource d'origine qui peuvent être utilisées pour identifier une personne. Le hachage de données ou des points de décalage spatial ne peut jamais annuler de tels problèmes potentiels. Donc, vous avez à peu près laissé votre propre position éthique!
Andrew Tice
Les procédures d'anonymat standard ont tendance à faire des hypothèses sur les populations normalement distribuées, alors que la plupart des analyses spatiales ont tendance à être loin d'être normalement distribuées. La création de raster va un peu brouiller la précision perçue des sorties et pourrait donc être envisagée pour une présentation générale. La question d'origine mentionnait le MAUP, et l'utilisation d'une certaine forme d'arnaque à différents niveaux spatiaux pourrait certainement aider, même si cela pourrait être utile à la fin de dépoussiérer quelque chose comme le GAM d'Openhaw?
Andrew Tice,
1
@AndrewTice Puis-je demander ce qu'est une arnaque? Mes capacités de dés-acronymisation m'ont abandonné aujourd'hui!
Tumbledown
1
@Tumbledown - Désolé! Il représente la méthode d'ajustement des petites cellules. Si vous faites une recherche Google complète, vous trouverez de la documentation de l'ONS au Royaume-Uni. C'est l'une des méthodes éprouvées pour les rapports de recensement à petite échelle, elle est donc appliquée pour le dénombrement des unités surfaciques. C'est un peu brutal, mais comme l'ONS l'a largement utilisé, il y a un peu de justification pour appliquer la méthode.
Andrew Tice
1
Oui! Toujours une déception lors du référencement de matériel plus ancien. J'essaierai de trouver des liens de travail et de modifier mon message de manière appropriée. Merci!
Sean Adkins
4

Ce sont les règles données par Eurostat lorsqu'il demande de déclarer les emplacements des exploitations. Les emplacements sont signalés avec des coordonnées arrondies et dans certains cas en appliquant un décalage semi-aléatoire supplémentaire. Je ne sais pas s'ils donnent une bonne règle d'or, mais au moins ces règles sont utilisées par une autorité européenne bien connue.

Concernant l'emplacement de l'exploitation, deux principes sont appliqués: (i) des coordonnées précises ne sont pas requises; et (ii) un emplacement avec une seule exploitation sera recodé.

(i) des coordonnées précises ne sont pas requises: les coordonnées de longitude et de latitude ne seront pas requises en termes de secondes ou de fractions décimales de minutes. Il sera nécessaire de fournir l'emplacement uniquement aux 5 minutes les plus proches, ce qui représente une superficie d'environ 3 000 à 7 000 ha, selon l'emplacement en Europe.

ii) un emplacement avec une seule exploitation sera recodé: il est possible que dans les zones avec de très grandes exploitations, l'emplacement spécifié aux 5 minutes de longitude et de latitude les plus proches ne puisse contenir qu'une seule exploitation qui serait donc directement identifiable. Pour éviter toute identification directe, la localité avec une seule exploitation doit être attribuée au point voisin le plus proche (choisi au hasard) avec au moins une autre exploitation. Si l'un des 8 emplacements voisins n'a pas au moins une exploitation, les emplacements voisins doivent être prolongés jusqu'à ce que d'autres soient situés avec au moins une autre exploitation. Toutefois, dans la mesure du possible, l'exploitation agricole doit être affectée à la région NUTS 3 où elle est située.

user30184
la source
1

J'ai pensé mettre ce site utile comme lien supplémentaire: UK Anonymisation Network

Il n'est pas spécifique au SIG et s'adresse au Royaume-Uni, mais fournit des informations et des ressources utiles sur l'atténuation du risque de divulgation.

Ils organisent également une série d'ateliers et de cliniques d'anonymisation gratuits

Délabré
la source
Un autre lien utile, un cadre de prise de décision de l'UKAN: ukanon.net/ukan-resources/ukan-decision-making-framework
Tumbledown