Bref résumé
Pourquoi est-il plus courant d'utiliser la régression logistique (avec rapports de cotes) dans les études de cohortes à résultats binaires, par opposition à la régression de Poisson (avec les risques relatifs)?
Contexte
D'après mon expérience, les statistiques et les cours d'épidémiologie pour les étudiants de premier cycle et les cycles supérieurs enseignent généralement que la régression logistique devrait être utilisée pour modéliser des données avec des résultats binaires, les estimations du risque étant rapportées comme des rapports de cotes.
Cependant, la régression de Poisson (et apparentée: quasi-Poisson, binôme négatif, etc.) peut également être utilisée pour modéliser des données avec des résultats binaires et, avec des méthodes appropriées (par exemple, un estimateur en variance robuste robuste), elle fournit des estimations de risque et des niveaux de confiance valables. Par exemple,
- Greenland S., Estimation basée sur un modèle des risques relatifs et d'autres mesures épidémiologiques dans les études sur les résultats communs et les études cas-témoins , Am J Epidemiol. 15 août 2004; 160 (4): 301-5.
- Zou G., Une approche de régression de Poisson modifiée pour les études prospectives avec des données binaires , Am J Epidemiol. 1er avril 2004; 159 (7): 702-6.
- Zou GY et Donner A., Extension du modèle de régression de Poisson modifié aux études prospectives avec données binaires corrélées , Stat Methods Med Res. 8 novembre 2011
À partir de la régression de Poisson, il est possible d’indiquer les risques relatifs, ce qui, selon certains, est plus facile à interpréter que les rapports de cotes, en particulier pour les résultats fréquents, et en particulier pour les personnes ne disposant pas de connaissances solides en statistiques. Voir Zhang J. et Yu KF, Quel est le risque relatif? Méthode de correction du rapport de cotes dans les études de cohorte portant sur des résultats communs , JAMA. 18 novembre 1998; 280 (19): 1690-1.
À la lecture de la littérature médicale, parmi les études de cohorte ayant des résultats binaires, il semble qu'il soit encore beaucoup plus courant de rapporter les rapports de cotes issus de régressions logistiques plutôt que les risques relatifs découlant de régressions de Poisson.
Des questions
Pour les études de cohorte avec des résultats binaires:
- Existe-t-il une bonne raison de déclarer les rapports de cotes issus de régressions logistiques plutôt que les risques relatifs liés aux régressions de Poisson?
- Sinon, la rareté des régressions de Poisson avec des risques relatifs dans la littérature médicale peut-elle être attribuée principalement à un décalage entre la théorie et la pratique méthodologiques chez les scientifiques, les cliniciens, les statisticiens et les épidémiologistes?
- Les statistiques intermédiaires et les cours d'épidémiologie devraient-ils inclure davantage de discussions sur la régression de Poisson pour les résultats binaires?
- Devrais-je encourager les étudiants et leurs collègues à envisager la régression de Poisson sur la régression logistique, le cas échéant?
exp(beta_M1) =/= 1/exp(beta_M2)
). Cela me dérange un peu.Réponses:
Une réponse à vos quatre questions, précédée d'une note:
Il n’est pas vraiment courant que les études épidémiologiques modernes rapportent un rapport de cotes tiré d’une régression logistique pour une étude de cohorte. Il reste la technique de régression de choix pour les études cas-témoins, mais des techniques plus sophistiquées sont désormais le standard d'analyse de facto dans les principales revues d'épidémiologie telles que Epidemiology , AJE ou IJE.. Ils auront davantage tendance à apparaître dans des revues cliniques présentant les résultats d'études d'observation. Il y aura également des problèmes, car la régression de Poisson peut être utilisée dans deux contextes: ce à quoi vous faites référence, dans lequel elle remplace un modèle de régression binomiale, et dans un contexte temps-événement, extrêmement courant pour les cohortes. études. Plus de détails dans les réponses aux questions:
Pour une étude de cohorte, pas vraiment non. Il existe des cas extrêmement spécifiques où, disons, un modèle logistique par morceaux a peut-être été utilisé, mais ce sont des valeurs aberrantes. L’ intérêt d’une étude de cohorte est que vous pouvez mesurer directement le risque relatif, ou de nombreuses mesures connexes, sans avoir à vous fier à un rapport de cotes. Je ferai cependant deux remarques: une régression de Poisson consiste à estimer souvent un taux, ce n’est pas un risque, et donc l’effet estimé à partir de celui-ci sera souvent noté comme un rapport de taux (principalement, dans mon esprit, vous pouvez donc toujours le raccourcir RR) ou comme un rapport de densité d’incidence (TRI ou IDR). Assurez-vous donc dans votre recherche que vous recherchez les termes appropriés: de nombreuses études de cohortes utilisent des méthodes d'analyse de la survie. Pour ces études, la régression de Poisson repose sur des hypothèses problématiques, notamment le fait que le risque est constant. En tant que tel, il est beaucoup plus courant d'analyser une étude de cohorte à l'aide de modèles de risques proportionnels de Cox plutôt que de modèles de Poisson et de rapporter le rapport de risque (HR) qui en découle. Si l'on appuie sur le nom d'une méthode "par défaut" permettant d'analyser une cohorte, je dirais que l'épidémiologie est en réalité dominée par le modèle de Cox. Cela a ses propres problèmes et de très bons épidémiologistes voudraient le changer,
Il y a deux choses que je pourrais attribuer à la rareté - une rareté que je ne pense pas nécessairement existe dans la mesure suggérée. La première est que oui - "l'épidémiologie" en tant que domaine n'est pas exactement fermé, et vous obtenez un grand nombre d'articles de cliniciens, de spécialistes des sciences sociales, etc., ainsi que d'épidémiologistes d'horizons statistiques variés. Le modèle logistique est couramment enseigné et, selon mon expérience, de nombreux chercheurs se tourneront vers l'outil habituel plutôt que vers le meilleur outil.
La seconde est en réalité une question de ce que vous entendez par "étude de cohorte". Quelque chose comme le modèle de Cox ou un modèle de Poisson nécessite une estimation réelle du temps-personne. Il est possible de réaliser une étude de cohorte qui suit une population relativement fermée pour une période donnée - en particulier dans les premiers exemples "Intro to Epi", où les méthodes de survie telles que les modèles de Poisson ou de Cox ne sont pas si utiles. Le modèle logistique peutêtre utilisé pour estimer un rapport de cotes qui, avec une prévalence de la maladie suffisamment faible, se rapproche d'un risque relatif. D'autres techniques de régression qui l'estiment directement, comme la régression binomiale, posent des problèmes de convergence qui peuvent facilement faire dérailler un nouvel étudiant. N'oubliez pas que les documents Zou que vous citez utilisent tous les deux une technique de régression de Poisson pour résoudre les problèmes de convergence de la régression binomiale. Mais les études de cohorte adaptées au binôme ne représentent en réalité qu'une petite partie de la "tarte à l'étude de cohorte".
Oui. Franchement, les méthodes d’analyse de survie devraient être présentées plus tôt qu’elles ne le font souvent. Ma théorie des animaux de compagnie est que la raison en est que des méthodes telles que la régression logistique sont plus faciles à coder . Les techniques qui sont plus faciles à coder, mais comportent des avertissements beaucoup plus grands quant à la validité des estimations de leurs effets, sont enseignées comme la norme "de base", ce qui pose problème.
Vous devriez encourager les étudiants et leurs collègues à utiliser l'outil approprié. De manière générale, dans le domaine, je pense que vous feriez probablement mieux de suggérer de prendre en compte le modèle de Cox sur une régression de Poisson, car la plupart des examinateurs (et devraient) rapidement soulever des préoccupations concernant l'hypothèse d'un danger constant. Mais oui, plus vite vous pourrez les écarter de la question "Comment puis-je intégrer ma question à un modèle de régression logistique?" mieux nous serons tous. Mais oui, si vous étudiez une étude sans temps, les étudiants devraient être initiés à la fois à la régression binomiale et à des approches alternatives, comme la régression de Poisson, pouvant être utilisées en cas de problèmes de convergence.
la source
Moi aussi, je spécule sur la prévalence des modèles logistiques dans la littérature lorsqu'un modèle de risque relatif serait plus approprié. En tant que statisticiens, nous ne sommes que trop habitués au respect des conventions ou aux analyses de type "menu déroulant". Celles-ci créent beaucoup plus de problèmes qu'elles n'en résolvent. La régression logistique est enseignée comme un "outil standard" pour analyser les résultats binaires, lorsqu'un individu a un type de résultat oui / non comme le décès ou l'invalidité.
La régression de Poisson est souvent enseignée comme méthode d'analyse des comptes . Il est un peu sous-estimé qu'un tel modèle de probabilité fonctionne exceptionnellement bien pour modéliser les résultats 0/1, en particulier lorsqu'ils sont rares. Cependant, un modèle logistique est également bien appliqué avec des résultats rares: l'odds ratio est approximativement un rapport de risque, même avec un échantillonnage dépendant du résultat comme dans les études cas-témoins. On ne peut pas en dire autant des modèles de risque relatif ou de Poisson.
Un modèle de poisson est également utile lorsque certaines personnes peuvent avoir un "résultat" plus d'une fois et que vous pourriez être intéressé par l'incidence cumulative, telle que les épidémies d'herpès, les hospitalisations ou le cancer du sein. Pour cette raison, les coefficients exponentiés peuvent être interprétés comme des taux relatifs . Pour faire la différence entre les taux et les risques: s’il ya 100 cas pour 1 000 années-personnes mais que tous les 100 cas se sont produits chez un individu, l’incidence (taux) est toujours de 1 cas pour 10 personnes-années. Dans un contexte de prestation de soins de santé, vous devez toujours traiter 100 cas et la vaccination de 80% de la population entraîne une réduction du taux d'incidence de 80% (a priori). Cependant, le risque d' au moins un résultat est de 1/1000. La nature du résultat et la question, ensemble, déterminent quel modèle est approprié.
En passant, l'article de Zhang fournit une estimation biaisée de l'inférence basée sur l'estimation du risque relatif, qui ne tient pas compte de la variabilité du terme d'interception. Vous pouvez corriger l’estimateur en démarrant.
Pour répondre aux questions spécifiques:
2.3. Je pense que vous blâmez et présumez exagérément ce qui se passe dans les revues médicales et les universitaires.
http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat
la source