Comment initier doucement les épidémiologistes / collègues de la santé publique à la modélisation prédictive avancée?

8

Issu d'une formation en sciences sociales et en épidémiologie, mes collègues ont été formés à la régression des moindres carrés, à la régression logistique et à l'analyse de survie. Ils aiment voir des intervalles de confiance à 95% et des valeurs de p avec les coefficients des paramètres, et se méfient des outils prédictifs plus récents tels que les réseaux de neurones, CART, l'ensachage et le boosting, ainsi que des techniques de régression pénalisées.

RobertF
la source
4
Mon cours de courte durée s'adresse à ce public, entre autres. Des informations, y compris des documents, sont disponibles sur le site Web pour la version semestrielle complète du cours: biostat.mc.vanderbilt.edu/CourseBios330 . L'une des nombreuses choses que je couvre est la raison pour laquelle il est déraisonnable d'anti-log coefficients de régression logistique pour obtenir des rapports de cotes; ceci dans le contexte de permettre aux effets d'être non linéaires et d'obtenir, par exemple, des rapports de cotes d'intervalle de quartile.
Frank Harrell
2
J'aime les 2 livres suivants: An Introduction to Statistical Learning: with Applications in R (James, Witten, Hastie and Tibshirani). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (Hastie, Tibshirani, Friedman). Je trouve également que les épidémiologistes préfèrent les modèles de régression paramétrique (les modèles de type GLM que vous mentionnez) pour l'estimation et l'inférence par rapport aux modèles de régression semi / non paramétrique modernes. Je suppose que parce qu'une grande partie de leur travail se concentre sur la découverte / explication des facteurs de risque / protection, plutôt que sur la génération d'ajustements de régression flexibles (pour la prédiction)?
Chris
2
@RobertF: C'est vrai pour la plupart des professions (inertie?). Cependant, les épidémiologistes sont généralement intéressés par les modèles explicatifs et il n'est pas toujours tout à fait clair comment des approches prédictives plus novatrices comme la pénalisation devraient être utilisées lorsque, par exemple, on souhaite évaluer la confusion, l'interaction sur une exposition d'intérêt. Cours, livre et son département de Frank Harrell. le site contient beaucoup de matériel utile qui peut également être appliqué en épidémiologie.
Thomas Speidel
1
@RobertF: C'est quelque chose que j'ai du mal à saisir. Si nous biaisons délibérément les estimations des effets pour réduire le sur-ajustement, comment pouvons-nous les traiter comme si elles n'étaient pas biaisées lorsque nous voulons les interpréter?
Thomas Speidel
1
@Chris L'un des outils d'analyse de survie les plus couramment utilisés par les épidémiologistes est un modèle semi-paramétrique.
Fomite

Réponses:

6

Je vais peser en tant qu'épidémiologiste.

Je peux voir l'inertie s'instaurer au fur et à mesure que les chercheurs et les professionnels du domaine de la santé entrent dans la gestion intermédiaire et au-delà et sont déconnectés des nouveaux développements statistiques.

Premièrement, je vous déconseille fortement de supposer qu'il s'agit simplement d'inertie, que ce soit sous la forme d'une discipline ne voulant pas adopter de nouvelles techniques, ou que vos collègues perdent le contact avec les nouveaux développements statistiques. Vous pouvez vous rendre à des conférences universitaires sur l'épidémiologie où des travaux nouveaux et très sophistiqués sur le plan méthodologique sont en cours, et vous ne trouverez toujours pas nécessairement grand-chose sur la modélisation prédictive.

L'indice est dans le nom. Modélisation prédictive .

L'épidémiologie, en tant que domaine, n'est pas particulièrement intéressée par la prédiction pour elle-même. Au lieu de cela, il se concentre sur le développement d'explications étiologiques pour les modèles de maladie observés dans une population. Les deux sont liés, mais distincts, ce qui conduit souvent à une sorte de méfiance philosophique à l'égard des techniques de classification et de prédiction plus modernes qui tentent purement de maximiser l'impact prédictif d'un modèle. À l'extrême, les personnes estiment que la sélection des variables doit être effectuée principalement en utilisant quelque chose comme un graphique acyclique dirigé, ce qui pourrait être considéré comme l'opposé de l'orientation de la modélisation prédictive.

Il en résulte que cela ne fait pas partie de leurs antécédents, que ce n'est pas quelque chose qu'ils rencontrent beaucoup dans la littérature et, pour être parfaitement franc, il est fort probable que leur exposition à cela ait été faite par des personnes qui ne comprennent pas réellement les problèmes qu'ils essaient résoudre.

Ceci, dans les commentaires, est un parfait exemple:

Cela jette certaines personnes - le fait que nous introduisons délibérément un biais dans la régression pénalisée pour améliorer la précision prédictive

Presque tous les épidémiologistes que je connais, si vous les faisiez choisir, choisiraient une réduction du biais plutôt qu'une augmentation de la précision.

Cela ne veut pas dire qu'il ne soit jamais évoqué. Il y a des moments où des modèles prédictifs sont utilisés - souvent dans des cas cliniques où la prédiction des résultats de ce patient particulier est d'un intérêt considérable, ou la détection d'une épidémie, où ces techniques sont utiles parce que nous ne savons pas ce qui s'en vient et ne pouvons pas faire d'étiologie arguments. Ou lorsque la prédiction est vraiment l'objectif - par exemple, dans de nombreux modèles d'estimation d'exposition. Ils sont juste un peu de niche dans le domaine.

Fomite
la source
Je m'excuse si c'est un peu offensant, je ne le pense pas. Quelle est la formation d'un épidémiologiste en statistique et / ou en mathématiques? De par ma propre expérience, les épidémiologistes que j'ai rencontrés (et j'en ai rencontré un nombre considérable) sont mal équipés statistiquement pour utiliser et interpréter les modèles qu'ils ont montrés. Beaucoup d'entre eux ignoraient les concepts de base comme la correction de tests multiples et d'autres problèmes pratiques. Je me demandais si vous pouviez commenter cela. Ai-je simplement rencontré de mauvais épidémiologistes ou s'agit-il d'un phénomène à l'échelle de la discipline? Encore une fois, j'espère que ce n'était pas le cas
Chris C
1
@ChristC Une partie du problème est, par rapport à dire, "statisticien", l'épidémiologiste est un domaine très large. Il y a beaucoup de gens qui peuvent s'en tirer avec des tables 2x2 et des mathématiques pas moins complexes que la division longue, car pour la plupart des problèmes de santé publique locaux, cela suffit. 1 / n
Fomite
1
Il y a aussi quelques caprices du domaine (Charlie Poole à l'UNC a un argument concernant: les corrections de comparaison multiples étant un concept défectueux en épidémiologie), et un certain manque d'éducation parce que la plupart des épis sont des utilisateurs de modèles, et pour être franc, les programmes statistiques sont souvent totalement désintéressé de leur enseigner. 2 / n
Fomite
1
À l'autre extrémité du spectre, vous avez des méthodologistes très sophistiqués travaillant sur des problèmes axés sur l'épi - inférence causale, modèles de systèmes, risques concurrents, etc., qui sont extrêmement bien informés. Tout dépend en grande partie du type de travail qu'ils font, de leurs antécédents, etc. n / n
Fomite
1
@ChrisC Un exemple particulièrement illustratif dont je viens de me souvenir. À la même conférence, dans la même session , je présentais une nouvelle approche (quoique quelque peu dérivée) de la modélisation de la saisonnalité en utilisant des modèles de régression avec des fonctions harmoniques. Le discours avant le mien? Camemberts. Les deux pourraient être appelés de façon très crédible "Epidemiology".
Fomite