Je suis intéressé à apprendre comment développer une approximation géographique d'une sorte d'épicentre sur la base des données de l'épidémie de choléra de John Snow. Quelle modélisation statistique pourrait être utilisée pour résoudre un tel problème sans connaissance préalable de l'emplacement des puits.
Comme problème général, vous auriez à disposition l'heure, l'emplacement des points connus et le chemin de marche de l'observateur. La méthode que je recherche utiliserait ces trois éléments pour estimer l'épicentre de la «flambée».
bayesian
spatial
epidemiology
gis
cylondude
la source
la source
Réponses:
Non pas pour donner une réponse complète ou faisant autorité, mais juste pour stimuler les idées, je ferai rapport sur une analyse rapide que j'ai faite pour un exercice de laboratoire dans un cours de statistiques spatiales que j'enseignais il y a dix ans. Le but était de voir quel effet aurait une comptabilisation précise des trajets probables (à pied), par rapport à l'utilisation des distances euclidiennes, sur une méthode exploratoire relativement simple: une estimation de la densité du noyau. Où serait le pic (ou les pics) de densité par rapport à la pompe dont Snow a retiré la poignée?
En utilisant une représentation raster assez haute résolution (2946 lignes par 3160 colonnes) de la carte de Snow (correctement géoréférencée), j'ai numérisé chacune des centaines de petits cercueils noirs montrés sur la carte (en trouvant 558 à 309 adresses), en assignant chacun à le bord de la rue correspondant à son adresse, et résumant par adresse en un décompte à chaque emplacement.
Après un traitement d'image pour identifier les rues et les ruelles, j'ai effectué une diffusion gaussienne simple limitée à ces zones (en utilisant des moyens focaux répétés dans un SIG). Ceci est le KDE.
Le résultat parle de lui-même - il n'a à peine besoin d'une légende pour l'expliquer. (La carte montre de nombreuses autres pompes, mais elles se trouvent toutes en dehors de cette vue, qui se concentre sur les zones de densité la plus élevée.)
la source
Dans [1, §3.2], David Freedman suggère une réponse essentiellement négative à votre question. Autrement dit, aucun (simple) modèle ou algorithme statistique ne pourrait résoudre le problème de John Snow. Le problème de Snow était de développer un argument critique soutenant sa théorie selon laquelle le choléra est une maladie infectieuse d'origine hydrique, contre la théorie des miasmes qui prévalait à l' époque. (Le chapitre 3 de [1], intitulé «Modèles statistiques et cuir pour chaussures», est également disponible sous la forme précédemment publiée [2] ici .)
Dans ces quelques courtes pages [1, pp.47–53], dont une grande partie est une longue citation de John Snow lui-même, Freedman soutient que "ce que Snow a réellement fait en 1853-1854 est encore plus intéressant que la fable [du Broad Pompe de rue]. " En ce qui concerne le rassemblement des preuves statistiques (d'autres préliminaires tels que l'identification des cas index, etc., sont discutés en plus), Snow a exploité la variation naturelle pour effectuer une quasi-expérience vraiment remarquable.
Il s'avère qu'à une époque antérieure, il y avait une concurrence vigoureuse entre les sociétés d'approvisionnement en eau à Londres, et cela a abouti à un mélange spatial de l'approvisionnement en eau qui était (selon les mots de Snow) "du type le plus intime".
Un autre élément d'une `` variation naturelle '' d'une importance cruciale que John Snow a exploité dans cette quasi-expérience était qu'une entreprise d'eau avait sa prise d'eau sur la Tamise en aval des rejets d'eaux usées , tandis que l'autre avait quelques années avant de déplacer son entrée en amont . Je vous laisse deviner lequel était celui du tableau de données de John Snow!
Comme Freedman le note avec fanfaron,
Un autre point de variation naturelle exploité par Snow s'est produit dans la dimension temporelle : la délocalisation de la prise d'eau susmentionnée s'est produite entre deux épidémies, ce qui a permis à Snow de comparer l'eau de la même entreprise avec et sans ajout d'eaux usées. (Merci à Philip B. Stark, un auteur de [1], pour cette info via Twitter . Voir sa conférence en ligne .)
Cette question fournit également une étude instructive sur le contraste entre le déductivisme et l' inductivisme , comme discuté dans cette réponse .
Freedman D, Collier D, Sekhon JS, Stark PB. Modèles statistiques et inférence causale: un dialogue avec les sciences sociales. Cambridge; New York: Cambridge University Press; 2010.
Freedman DA. Modèles statistiques et chaussures en cuir. Méthodologie sociologique . 1991; 21: 291-313. doi: 10.2307 / 270939. Texte intégral
la source