Considérez-vous le géocodage en ligne comme une atteinte à la vie privée?

21

Supposons que j'ai un tas d'adresses de personnes participant à une certaine étude (très probablement - liées à la santé, où la vie privée et les considérations éthiques sont toujours des questions importantes).

De nos jours, des fournisseurs comme Google ou Yahoo proposent des résultats décents en termes de précision de positionnement.

L'Association nord-américaine des registres centraux du cancer ( NAACCR ) répertorie ces options dans ses « meilleures pratiques de géocodage: examen de huit systèmes de géocodage couramment utilisés». guides ` '' et `` A Geocoding Best Practices Guide ''.

Cinnamon et Schuurman (2010), par exemple, ont utilisé le service BatchGeocode dans le cadre de leur outil pour enquêter sur les blessures dans un contexte de faibles ressources.

Considérez-vous que le géocodage de ces adresses à l'aide de services en ligne, comme Google Maps ou OpenStreetMap, constitue une violation de la vie privée?

PS1 peut-être une question connexe .

Un récent article de PS2 dans Epidemiology (l'une des principales revues à comité de lecture dans le domaine) a publié une courte communication détaillant les instructions sur la façon de géocoder à l'aide des API Google Maps & Places. Fait intéressant, aucun mot sur la sécurité / confidentialité n'a été mentionné ...

radek
la source
Question sur la portée du wiki communautaire?
artwork21

Réponses:

11

Il y a certainement une implication dans la confidentialité ici - en particulier si vous travaillez avec de petits lots de données. Quiconque tente d'exploiter le flux de données sera en mesure de supposer que toutes les demandes dans le même lot ont quelque chose en commun - même si l'état de santé ou les informations personnelles ne sont pas divulguées sur le fil.

Une meilleure technique consiste à regrouper de nombreuses données / patients non liés pour le géocodage en masse.

Par exemple - combinez vos données nécessitant un géocodage avec d'autres chercheurs - plus il y a de problèmes indépendants, mieux c'est. Randomisez l'ordre des demandes. Et un traitement par lots par jour à travers cette file d'attente, tout à la fois.

Maintenant, il devient beaucoup plus difficile d'extraire les données, même si un attaquant est capable d'entendre les demandes de géocodage.

radven
la source
Intéressant! Un outil / une plateforme qui pourrait faciliter ce processus?
Nicolas Raoul
8

Le géocodage local avec des fichiers cryptés sur un serveur sécurisé serait certainement la référence en matière de confidentialité. Utiliser Tor serait la prochaine meilleure chose, si le géocodage à l'aide d'une API distante est nécessaire.

Tor vous protège en faisant rebondir vos communications autour d'un réseau distribué de relais géré par des bénévoles du monde entier: il empêche ... les sites que vous visitez d'apprendre votre localisation physique.

En plus d'injecter des adresses aléatoires (comme d'autres recommandent ici) et d'utiliser SSL (https) pour crypter les communications vers leurs points de terminaison (assurez-vous que vous le faites également), je ne peux pas penser à un moyen plus sûr de géocoder à distance que via le projet Tor . Quel que soit le service de géocodage que vous utilisez, il ne sera jamais possible d'identifier d'où proviennent les demandes, et avec https personne ne le fera non plus. Remarque: n'utilisez pas un service de géocodage qui nécessite une clé api pour cela, ou vous ne serez plus anonyme. (Google n'a plus besoin d'une clé API).

Plus de détails sur l'utilisation de Tor sont dans ma réponse à une question connexe ici.

Victor Van Hee
la source
Merci, je n'ai pas pensé à Tor, mais cela semble être une bonne idée.
radek
Même si vous utilisez Tor, le serveur de géocodage reçoit toujours vos informations, ce qui constitue une violation fondamentale de la confidentialité. Vous ne pouvez pas faire confiance au serveur de géocodage.
Nicolas Raoul
8

C'est une excellente question qui m'a été posée plusieurs fois récemment depuis que je travaille pour une société de vérification d'adresse appelée SmartyStreets.

Tout d'abord, une adresse postale représente un seul point localisable sur la carte. Une adresse en soi est intrinsèquement bénigne car elle ne contient aucune information supplémentaire. Dessiner un point sur une carte ne fait rien. Ce n'est que lorsque vous commencez à attribuer CONTEXTE à ce point (adresse) qu'il commence à signifier quelque chose.

Dans cet esprit, une adresse postale peut représenter une personne, une organisation, un bâtiment, une voiture, peu importe. Une fois que vous commencez à rassembler plusieurs adresses postales, vous augmentez le contexte qui peut être dérivé de ce regroupement. Des similitudes peuvent être déterminées pour voir ce que les adresses ont en commun. Pourtant, juste un regroupement d'adresses dans une zone similaire ne dénote pas beaucoup de contexte. Je peux regarder une carte google et voir toutes les maisons dans une certaine zone. Ce n'est pas une violation de la vie privée, sauf si j'ai un accès non autorisé à des informations privilégiées.

D'autres points de contexte doivent être combinés afin de révéler réellement tout type de données privées. Par exemple, un groupe d'adresses postales soumises à un service en ligne pour la vérification d'adresse et / ou le géocodage ne donne pas d'informations, sauf si vous savez qui a soumis la liste pour traitement. Une fois que le propriétaire de la liste est connu, certaines inférences peuvent être faites sur l'utilisation prévue de la liste. Connaître ce contexte supplémentaire, comme le propriétaire de la liste et l'utilisation prévue, serait certainement considéré comme une information privilégiée et peut être une source d'atteinte à la vie privée.

Faire du traitement "en interne" afin qu'aucun service de données externes ne soit impliqué est une option. Il exclut certainement tout type d'accès non autorisé à des informations privilégiées. La vérification d'adresse et le géocodage ne sont pas des tâches pour les non-initiés et nécessitent certainement des compétences avancées (c'est-à-dire une expérience acquise au fil du temps) afin de traiter de très grandes listes sans consommer des quantités excessives de temps et de ressources. Il est donc certainement possible de l'apporter en interne, mais chaque entreprise qui possède des informations d'adresse sensibles a-t-elle les ressources pour effectuer son propre traitement d'adresse "sécurisé" (y compris le géocodage) en interne? Non (même si cela signifierait certainement une sécurité d'emploi pour les lecteurs de ce site Web.)

Il existe des moyens de maintenir la confidentialité requise et de continuer à utiliser les services en ligne. Une méthode consisterait à créer un compte, à tout tester et à comprendre, puis, à l'aide d'une adresse e-mail temporaire, à créer un nouveau compte avec une adresse de facturation indépendante associée à une carte de crédit qui ne peut pas être retracée jusqu'à vous. Le traitement des adresses sur ce compte ne dégagerait théoriquement aucun contexte précieux et préserverait ainsi la confidentialité des personnes figurant sur la liste. (Cela commence à ressembler au film Enemy Of The State .

Si cela semble complexe et inutile, je suis d'accord. Une méthode plus simple serait de tirer parti d'une API qui utilise HTTPS et POST et qui ne stocke ni n'enregistre aucune des données que vous traitez. L'utilisation de HTTPS signifie que le seul enregistrement serait un horodatage et l'adresse IP à partir desquels vous appelez. L'URL sous-jacente ne serait pas connue. Bien sûr, le compte que vous utilisez vous ramènera MAIS, ce n'est pas un problème car l'utilisation d'une demande POST vous permet de joindre une charge utile (dans ce cas, un lot d'adresses) et le contenu de la charge utile n'est pas enregistré. Ainsi, les adresses que vous soumettez ne figurent dans aucun journal de serveur. Et le fait que leur mémoire soit effacée entre chaque processus signifie que ces adresses ne sont jamais stockées ou enregistrées et que leur transmission vers vous se fait via une connexion sécurisée.

13 mars 2012 06:31 (-6) IP: 12.134.223.12 UserID: 875564 - POST QTY: 3439942 - [Processed]

Toute personne qui consulte les journaux verrait seulement que vous avez traité certaines adresses et n'aurait aucune idée des adresses qui ont été traitées. Cela satisfait même aux exigences les plus strictes de la politique de confidentialité. Cela n'aurait aucun sens pour moi de souligner que ce type de service est disponible (et super rapide ) sans mentionner où le trouver. Il est déjà intégré au service API LiveAddress de SmartyStreets. D'autres services tels que Cdyne, QAS et ServiceObjects peuvent également offrir des services similaires, mais je n'en ai pas encore entendu parler.

Jeffrey
la source
Merci pour les informations détaillées. HTTPS semble définitivement une idée raisonnable. Je suppose que SmartyStreets est limité aux États-Unis?
radek
Oui, la vérification d'adresse et le géocodage de SmartyStreets sont limités aux adresses du service postal américain.
Jeffrey
5

Peut-être pourriez-vous créer un ID, diviser votre table. Suppression des informations personnellement identifiables. puis rejoignez la table après le géocodage.

Dans la veine de (PCness fédéré), je suppose que vous pourriez prouver qu'une fois que vous avez exécuté les données sur un serveur quelque part, vous n'avez pas maintenu la chaîne de possession.

J'ai trouvé pas mal d'écrits sur le sujet si vous voulez suivre ...

Possession et contrôle du cloud

Possession et contrôle électroniques de l'âge

Livre Google

Implication juridique du Cloud computing

Si l'application est effectuée conformément à la lettre de la loi, le cloud computing pourrait être complètement exclu des services gouvernementaux.

Brad Nesom
la source
5

Non, vous pouvez géocoder hors ligne. Si vous utilisez des géocodeurs par lots en ligne, comment la conversion d'adresses en coordonnées géographiques devient-elle un problème de confidentialité? Ce serait plus un problème si le nom de chacun était inclus et rendu public. Comme Brad mentionne une adresse distincte avec un ID et la rematch quand les adresses ont été géocodées. Pratique standard.

Mapperz
la source
5
J'accepte que vous puissiez géocoder hors ligne et ne pas avoir à divulguer d'informations personnelles. Mais je ne suis pas d'accord avec votre suggestion qui considère uniquement le nom et l'ID comme des informations qui devraient rester confidentielles. Si vous divulguez l'adresse personnelle d'une personne, même sans son nom, vous l'avez essentiellement identifiée. Pensez à publier une carte avec des points sur les maisons des personnes atteintes de maladies transmissibles hautement embarrassantes.
DavidF
2
Comme l'a dit Mapperz, tant que les informations que vous envoyez sont limitées à l'adresse, il ne devrait pas y avoir de problème. N'incluez pas «HECD» ou toute autre information sensible dans les informations que vous envoyez.
jvangeld
1
@DavidF chaque adresse a des coordonnées géographiques - le géocodage est automatisé à 99,9% [calcul] aucune confidentialité n'est perdue. Si vous ne l'aimez pas en ligne, ne le mettez pas là-bas, utilisez une version hors ligne.
Mapperz
2
@jvangeld Je pense toujours que la confidentialité peut être violée dans la situation en ligne lorsqu'un tiers peut combiner l'identité de l'organisation soumettant la demande de géocodage et les adresses. Si le Front populaire pour le traitement du vampirisme soumet un géocodage par lots contenant 100 adresses, ne pensez-vous pas qu'un tiers pourrait raisonnablement supposer que les 100 maisons avaient des gens qui tentaient de guérir de leur `` mode de vie alternatif ''? Évidemment, c'est un argument assez académique, mais si vous voulez vraiment protéger la vie privée et l'anonymat, je pense que c'est pertinent.
DavidF
1
L'opinion de @DavidF est très pertinente ici: l'adresse du domicile est considérée comme très sensible et pourrait potentiellement conduire à la divulgation des participants à l'étude. S'il y a 1000 demandes provenant d'une adresse IP d'une institution étudiant le vampirisme, on pourrait simplement supposer qu'ils ont des adresses de 1000 vampires potentiels. Mon problème est le suivant: le service de géocodage en ligne peut-il être considéré comme une «partie sûre» dans de telles conditions? Pouvez-vous être accusé de partager vos données avec une partie non autorisée qui ne fait pas partie de l'étude? Une partie qui, grâce au processus de géocodage, a potentiellement eu accès aux données?
radek
4

Le géocodage est à faible risque Plus tôt cette année, nous avons travaillé avec certains hôpitaux et cette question s'est posée. Le service de géocodage lui-même n'était pas une grande préoccupation car nous avons supprimé tout sauf l'identifiant et l'adresse des données, utilisé le transfert sécurisé (https) et les TOS, notre géocodeur interne a spécifié des protections de confidentialité qui étaient suffisantes pour répondre à leurs critères.

Afficher des emplacements de manière anonyme est plus difficile Le bit le plus délicat était d'afficher des cartes de données clairsemées tout en maintenant l'annonymonité. La première option demandée par le client était d'ajouter un "fudge" aléatoire à chaque point afin que l'emplacement réel de la maison soit obscurci. Le problème avec cette approche est que la taille du fudge requis est assez grande (1/2 mile ou plus) (et si quelqu'un vit dans une ferme) et la tendance des utilisateurs de cartes à prendre les emplacements des points aussi précis. Nous avons décidé d'agréger les points affichant suffisamment pour être anonyme tout en ayant une carte utile. Une norme d'autres industries dans lesquelles nous avons travaillé semble être que l'unité d'agrégation doit avoir au moins 7 à 10 enregistrements.

Glenn
la source
2

Je suppose que vous le géocodez et ne rendez pas les résultats publics? Dans l'affirmative, comment le cloud serait-il conscient de ce que ces données représentent?

Vraisemblablement, vous pouvez également masquer toutes les données que vous géocodez avec des données aléatoires masquant tout modèle inhérent qui peut exister.

djq
la source
correct, il s'agit d'obtenir un ensemble de coordonnées géographiques pour un ensemble de données donné. tout le reste de l'analyse sera hors ligne et tout ce qui sera publié ultérieurement n'utilisera jamais d'informations de niveau individuel. j'aime l'idée d'obscurcir l'ensemble de données!
radek
2

Je ne sais pas si c'est nouveau depuis la question posée, mais si quelqu'un se demandait dans l'api google maps v3 vous pouvez utiliser SSL (https). De plus, la section sur la confidentialité du Guide des meilleures pratiques NAACCR traite de ces questions.

Scott
la source
2

En Autriche, ce serait certainement un problème de confidentialité.

Tout d'abord: les données de santé sont classées comme sensibles et il ne fait aucun doute qu'il n'est pas permis de les communiquer à des tiers sans l'accord explicite de la personne liée à cet ensemble de données.

Même s'il est anonymisé: il est possible de géocoder ces données de santé, mais il est également possible de géocoder des registres de nom à adresse (annuaire) accessibles au public et de connecter les données de santé aux personnes qui y vivent, de sorte que les adresses sont également classées comme personnelles Les données.

Cela conduit au résultat, que vous ne seriez pas autorisé à géocoder cet ensemble de données en l'envoyant à un tiers sans demander explicitement à vos participants.

Jürgen Zornig
la source
1

Avez-vous besoin d'un géocodage exact ou d'une zone générale? Vous pourrez peut-être utiliser uniquement le code postal ou le code postal partiel f

user1466
la source
@ user1466: le géocodage exact serait certainement une préférence ici.
radek
1

Je travaille pour une entreprise de géocodage ( YAddress.net ), et nous avons un grand nombre de clients avec des exigences strictes en matière de confidentialité - industrie financière, santé, droit, etc.

Nous répondons à leurs préoccupations en matière de confidentialité de deux manières:

  1. Traitement des données en ligne via des connexions cryptées SSL (empêche l'espionnage des données en transit), ainsi que des accords de confidentialité de notre côté. C'est suffisant pour certains clients, mais pas pour tous.

  2. Pour une confidentialité ultime, une option de déploiement de logiciel sur site, où le géocodage a lieu entièrement dans les locaux du client et où aucune donnée ne transite jamais sur Internet.

Comme les autres commentateurs l'ont noté à juste titre, une adresse postale est en soi une information publique et sans données contextuelles (telles que les noms de clients, les numéros, etc.), elle ne représente aucune divulgation de quoi que ce soit. Cependant, les entreprises de la vie réelle opèrent dans des environnements juridiques réels, où cette ligne de raisonnement peut ou non être entendue par les tribunaux. Si la confidentialité est une préoccupation urgente, le coût supplémentaire d'une solution sur site peut en valoir la peine pour éviter le risque de complications juridiques potentielles.

Michael Diomin
la source