Visualisation pour inférer le workflow

9

J'apporte un soutien statistique à un service de santé publique. Comme vous pouvez l'imaginer, nous préparons régulièrement de nombreuses cartes. Pour moi, les cartes ne sont qu'un autre type de visualisation de données - utile pour avoir une idée des données, pour générer et vérifier des hypothèses, etc. Mais nous ne suivons pas souvent la modélisation réelle et les tests d' hypothèse .

Comment procédez-vous / votre organisation à ce sujet? À quoi ressemble un flux de travail qui inclut l'inférence? Qui est impliqué? Quels outils utilisez-vous? À quoi cela ressemblerait- il idéalement si vous aviez votre chemin?

Merci!

ÉDITER

Pour être clair, je suis curieux de connaître différentes stratégies pour passer des données spatiales aux tests statistiques formels d'hypothèses sur ce qui se passe dans le monde. Par exemple, disons que j'essaie de cibler une campagne éducative pour augmenter le dépistage de la tuberculose. Personnellement, je tracerais les cas de tuberculose contre les covariables d'intérêt (disons, le revenu médian ou le pourcentage de résidents nés à l'étranger) et j'essaierais de voir s'il y a des tendances.

Je pourrais ou non en trouver; mais je finirais par construire un modèle pour estimer l'association entre ces covariables et le nombre de données démographiques. Il s'agit d'une étape critique en raison de la capacité des humains à trouver des modèles là où il n'en existe pas, ou à en trouver des sans intérêt. Je sais comment le faire par moi-même, mais je suis curieux de savoir comment les différentes organisations l'institutionnalisent (le cas échéant).

Matt Parker
la source
Grande question!
whuber
Êtes-vous en train de dire que vous devez avoir un flux de travail de sorte que s'il y a une épidémie d'une maladie pour laquelle un approvisionnement limité en vaccin est disponible, vous devez être en mesure de montrer que vous distribuez de manière optimale le vaccin?
Kirk Kuykendall
En gros, je m'intéresse simplement à la façon dont les gens intègrent l'inférence statistique dans leurs processus de cartographie. Ce que vous décrivez est certainement un scénario possible, mais il y en a beaucoup d'autres et je ne suis même pas particulièrement intéressé par les réponses de l'épidémiologie.
Matt Parker

Réponses:

2

Question très intéressante!

Premièrement, votre question fait allusion à ce que j'appelle «l'exploration de données» et je pense que cela vaut la peine de reformuler le problème explicitement car certaines personnes ici ne l'ont peut-être pas compris: avec n'importe quel ensemble de données (ne doit pas être spatial) pour obtenir un statistiquement valide relation la convention est qu'elle doit être à ou au-dessus de 95% de probabilité. Cependant, si vous effectuez 20 tests, il est fort probable qu'au moins l'un des résultats «statistiquement valides» que vous obtenez soit dû au pur hasard. Donc, sa mauvaise pratique consiste à jouer avec un ensemble de données (dans le SIG, il serait de le cartographier) pour visualiser de nombreuses relations possibles entre les variables, en trouver une intéressante et brancher les statistiques et citer le résultat comme si c'était le seul test que vous avait fait. Vous pouvez toujours utiliser le résultat mais vous devez tenir compte du nombre de tests que vous avez effectués.

C'est à ça que vous conduisiez?

Votre question semble demander comment les gens formalisent en évitant ce problème. Ma réponse est que l'option «pas du tout» que vous mentionnez est courante. D'après mon expérience, les statisticiens médicaux (par exemple, ma petite amie) appliquent à ce type de processus un niveau de rigueur beaucoup plus élevé que dans d'autres domaines, je soupçonne que toutes sortes de cartographies de données en dehors de la santé publique sont effectuées sans aucune sorte d'examen officiel du problème avec l'application aveugle des formules de statistiques sans bien comprendre le processus. Un exemple géologique me vient à l'esprit:

J'ai lu un article révisé par des pairs où les auteurs ont examiné comment le rendement du forage (quantité d'eau pouvant être pompée) était lié aux influences géologiques et spatiales en Afrique, par exemple l'épaisseur de la couche de gravier qui a été creusée avant que la roche mère ne soit touchée. L'idée était d'aider les foreurs de forage afin qu'ils puissent cibler les meilleurs emplacements pour les forages. Les auteurs ont exploré de manière flagrante les données combinant toutes sortes de variables pour voir celles qui ont atteint un niveau de confiance de 95% et (je suppose) aucun des examinateurs n'avait remis en question la validité des résultats. Leurs conclusions n'étaient donc absolument pas fiables.

J'espère que cela vous intéresse

Trevesy
la source
Pouvez-vous expliquer un peu plus pourquoi le document que vous décrivez n'est pas fiable? Je ne vois pas pourquoi c'est le cas. Si la relation existe statistiquement, quel est le «modèle mental» que vous avez utilisé pour l'identifier? Je comprends que cela n'explique pas le mécanisme, mais c'est une question distincte.
djq