Quel modèle ou algorithme statistique pourrait être utilisé pour résoudre le problème de John Snow Cholera?

23

Je suis intéressé à apprendre comment développer une approximation géographique d'une sorte d'épicentre sur la base des données de l'épidémie de choléra de John Snow. Quelle modélisation statistique pourrait être utilisée pour résoudre un tel problème sans connaissance préalable de l'emplacement des puits.

Comme problème général, vous auriez à disposition l'heure, l'emplacement des points connus et le chemin de marche de l'observateur. La méthode que je recherche utiliserait ces trois éléments pour estimer l'épicentre de la «flambée».

cylondude
la source
2
Les modèles de krigeage sont utilisés pour la prédiction géographique. Ce pourrait être un point de départ. Pour inclure des informations temporelles, vous devrez aller plus loin et utiliser un modèle spatio-temporel (je ne les ai pas utilisés cependant).
Great38
4
@Great Kriging serait difficile à appliquer ici: il n'est pas destiné à estimer les extrêmes, ni à la géométrie du temps de marche le long des routes qui est pertinente, ni à contrôler des covariables importantes telles que la densité de population ou nombre de travailleurs dans les bâtiments.
whuber
Ce package R peut être intéressant github.com/lindbrook/cholera .
David C. Norris

Réponses:

25

Non pas pour donner une réponse complète ou faisant autorité, mais juste pour stimuler les idées, je ferai rapport sur une analyse rapide que j'ai faite pour un exercice de laboratoire dans un cours de statistiques spatiales que j'enseignais il y a dix ans. Le but était de voir quel effet aurait une comptabilisation précise des trajets probables (à pied), par rapport à l'utilisation des distances euclidiennes, sur une méthode exploratoire relativement simple: une estimation de la densité du noyau. Où serait le pic (ou les pics) de densité par rapport à la pompe dont Snow a retiré la poignée?

En utilisant une représentation raster assez haute résolution (2946 lignes par 3160 colonnes) de la carte de Snow (correctement géoréférencée), j'ai numérisé chacune des centaines de petits cercueils noirs montrés sur la carte (en trouvant 558 à 309 adresses), en assignant chacun à le bord de la rue correspondant à son adresse, et résumant par adresse en un décompte à chaque emplacement.

Carte par points des données d'entrée

Après un traitement d'image pour identifier les rues et les ruelles, j'ai effectué une diffusion gaussienne simple limitée à ces zones (en utilisant des moyens focaux répétés dans un SIG). Ceci est le KDE.

Le résultat parle de lui-même - il n'a à peine besoin d'une légende pour l'expliquer. (La carte montre de nombreuses autres pompes, mais elles se trouvent toutes en dehors de cette vue, qui se concentre sur les zones de densité la plus élevée.)

Carte de neige montrant la densité avec la couleur.

whuber
la source
SENSATIONNEL. Donc, pour résumer; 1. linéariser le trajet, 2. effectuer le lissage dans une dimension, 3. étendre le lissage dans deux dimensions, 4. faire la moyenne du kde sur les trajets?
cylondude
1
Le lissage a été effectué en 2D, mais limité à la région représentée en couleur. Il existe également d'autres façons de procéder, similaires à votre description. Cependant, il n'est pas nécessaire de faire la moyenne des "trajets" (quels qu'ils soient). Cette carte est intéressante en partie parce qu'elle partage les propriétés des géométries à une et à deux dimensions.
whuber
Pour chaque point A dans les rues, comptez le nombre de pas les uns vers les autres point B parmi les emplacements d'adresse. Branchez ce nombre d'étapes dans une densité gaussienne et multipliez cette valeur par le nombre de décès en B. Additionnez tous ces produits (c'est-à-dire sur tous les points d'adresse B) pour obtenir la densité du noyau au point A. Faites cela pour tous les points A dans les rues. C'est la densité que nous voyons à chaque point de la carte. Oui?
Hatchepsout
2
@ Hatchepsout C'est une proposition raisonnable. Ce que j'ai fait était juste un tout petit peu différent. Pour chaque point des emplacements d'adresse (source), j'ai créé une fonction gaussienne de distance de marche à partir de ce point comme vous le décrivez, puis je l'ai normalisée de sorte que son intégrale sur la grille de la rue soit égale au nombre à cet emplacement source. De cette façon, chaque mort était "propagée" dans son quartier. Ces valeurs ont été additionnées sur tous les emplacements source pour produire l'image montrée. B
whuber
2
@Hat Ce n'est pas le cas que le gaussien a une unité intégrale lorsqu'il est contraint aux routes et aux allées! Il est ainsi tronqué et doit être renormalisé.
whuber
19

Dans [1, §3.2], David Freedman suggère une réponse essentiellement négative à votre question. Autrement dit, aucun (simple) modèle ou algorithme statistique ne pourrait résoudre le problème de John Snow. Le problème de Snow était de développer un argument critique soutenant sa théorie selon laquelle le choléra est une maladie infectieuse d'origine hydrique, contre la théorie des miasmes qui prévalait à l' époque. (Le chapitre 3 de [1], intitulé «Modèles statistiques et cuir pour chaussures», est également disponible sous la forme précédemment publiée [2] ici .)

Dans ces quelques courtes pages [1, pp.47–53], dont une grande partie est une longue citation de John Snow lui-même, Freedman soutient que "ce que Snow a réellement fait en 1853-1854 est encore plus intéressant que la fable [du Broad Pompe de rue]. " En ce qui concerne le rassemblement des preuves statistiques (d'autres préliminaires tels que l'identification des cas index, etc., sont discutés en plus), Snow a exploité la variation naturelle pour effectuer une quasi-expérience vraiment remarquable.

Il s'avère qu'à une époque antérieure, il y avait une concurrence vigoureuse entre les sociétés d'approvisionnement en eau à Londres, et cela a abouti à un mélange spatial de l'approvisionnement en eau qui était (selon les mots de Snow) "du type le plus intime".

Les tuyaux de chaque compagnie descendent dans toutes les rues et dans presque toutes les cours et ruelles. Quelques maisons sont fournies par une entreprise et quelques-unes par l'autre, selon la décision du propriétaire ou de l'occupant à l'époque où les compagnies des eaux étaient en concurrence active.

...

Comme il n'y a aucune différence dans les maisons ou les personnes qui approvisionnent les deux compagnies des eaux, ni dans aucune des conditions physiques dont elles sont entourées, il est évident qu'aucune expérience n'aurait pu être conçue pour tester plus en profondeur la effet de l'approvisionnement en eau sur la progression du choléra que cela, que les circonstances ont mis prêt fait devant l'observateur.

—John Snow

Un autre élément d'une `` variation naturelle '' d'une importance cruciale que John Snow a exploité dans cette quasi-expérience était qu'une entreprise d'eau avait sa prise d'eau sur la Tamise en aval des rejets d'eaux usées , tandis que l'autre avait quelques années avant de déplacer son entrée en amont . Je vous laisse deviner lequel était celui du tableau de données de John Snow!

                     | Nombre de | Choléra | Décès par
Société | maisons | décès | 10 000 maisons
-------------------------------------------------- --------
Southwark et Vauxhall | 40,046 | 1263 | 315
Lambeth | 26 107 | 98 | 37
Reste de Londres | 256,423 | 1422 | 59

Comme Freedman le note avec fanfaron,

En tant que technologie statistique, [le tableau ci-dessus] n'est en aucun cas remarquable. Mais l'histoire qu'elle raconte est très convaincante. La force de l'argument résulte de la clarté du raisonnement antérieur, de la réunion de nombreux éléments de preuve différents et de la quantité de chaussures en cuir que Snow était prêt à utiliser pour obtenir les données. [1, p.51]

Un autre point de variation naturelle exploité par Snow s'est produit dans la dimension temporelle : la délocalisation de la prise d'eau susmentionnée s'est produite entre deux épidémies, ce qui a permis à Snow de comparer l'eau de la même entreprise avec et sans ajout d'eaux usées. (Merci à Philip B. Stark, un auteur de [1], pour cette info via Twitter . Voir sa conférence en ligne .)


Cette question fournit également une étude instructive sur le contraste entre le déductivisme et l' inductivisme , comme discuté dans cette réponse .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Modèles statistiques et inférence causale: un dialogue avec les sciences sociales. Cambridge; New York: Cambridge University Press; 2010.

  2. Freedman DA. Modèles statistiques et chaussures en cuir. Méthodologie sociologique . 1991; 21: 291-313. doi: 10.2307 / 270939. Texte intégral

David C. Norris
la source
1
+1 pour avoir souligné que l'identification d'un épicentre aurait été insuffisante pour résoudre le "problème de John Snow" comme indiqué. La théorie des miasmes était l'une de ces théories dominantes à l'époque, comme le souligne David. Pour falsifier la théorie des miasmes, il faudrait montrer que les taux géographiques n'augmentent pas avec la proximité du fleuve. Une approche moderne de ce problème aurait pu utiliser le krigeage.
AdamO
Merci, @AdamO; mais je me demande comment Kriging accepterait le mélange spatial "intime" dans ce cas, ce qui semble presque un affront à la continuité nécessaire à l'application d'une technique d' interpolation (telle que je comprends Kriging).
David C. Norris
J'ai peut-être mal compris les mots de Snow: ma présomption était que le «mélange intime [des sources d'approvisionnement des pompes à eau]» faisait référence à une conception de bloc presque parfaite où, stratifiée par la distance de la rivière, chaque strate concentrique de blocs de la ville avait au moins quelques pompes des fournisseurs A, B, C ... cela a à voir avec le soutien de la théorie selon laquelle l'eau contaminée cause le choléra. Le krigeage rejetterait l'hypothèse du miasme en montrant que la proximité de la rivière n'est pas associée à une augmentation de l'incidence du choléra. Ceci est soutenu par des personnes arrosant aux pompes: les miasmes ne voyagent pas par pipe.
AdamO
2
@AdamO En fait, William Farr avait étudié les taux de mortalité du choléra (à partir de 1849) et les avait comparés à l'altitude au-dessus de la Tamise. La correspondance entre ces variables est frappante et presque parfaitement conforme aux prédictions de la théorie des miasmes. Voir Langmuir AD. Revue bactériologique 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). Cet article note que même au moment de la mort du Dr Snow en 1858, sa théorie n'était "pas acceptée dans les cercles officiels".
whuber
1
Merci beaucoup pour ces références, @whuber. À titre de curation, je note que l'article de Langmuir est en libre accès .
David C. Norris