Coefficient de régression logistique exponentiellement différent du rapport de cotes

10

Si je comprends bien, la valeur bêta exponentielle d'une régression logistique est le rapport de cotes de cette variable pour la variable dépendante d'intérêt. Cependant, la valeur ne correspond pas au rapport de cotes calculé manuellement. Mon modèle prédit le retard de croissance (une mesure de la malnutrition) en utilisant, entre autres indicateurs, l'assurance.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Quelle est la raison conceptuelle de ces valeurs différentes? Contrôle d'autres facteurs dans la régression? Je veux juste être en mesure d'expliquer l'écart.

Mike
la source
2
Mettez-vous des prédicteurs supplémentaires dans le modèle de régression logistique? Le rapport de cotes calculé manuellement ne correspondra au rapport de cotes que vous retirez de la régression logistique que si vous n'incluez aucun autre prédicteur.
Macro
C'est ce que je pensais, mais je voulais confirmation. En effet, le résultat de la régression explique la variation des autres prédicteurs?
Mike
Oui, @mike. En supposant que le modèle est correctement spécifié, vous pouvez l'interpréter comme le rapport de cotes lorsque les autres prédicteurs sont tous fixes.
Macro
@Macro: cela vous dérangerait-il de reformuler votre commentaire comme réponse?
jrennie

Réponses:

22

Si vous ne mettez que ce seul prédicteur dans le modèle, le rapport de cotes entre le prédicteur et la réponse sera exactement égal au coefficient de régression exponentialisé . Je ne pense pas qu'une dérivation de ce résultat soit présente sur le site, je vais donc profiter de l'occasion pour le fournir.


YX

Y=1Y=0X=1p11p10X=0p01p00

XiYi

OR=p11p00p01p10

pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

En régression logistique, vous modélisez directement ces probabilités:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

et le second est:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

OR=e(β0+β1)eβ0=eβ1

Z1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

c'est donc le rapport de cotes conditionnel aux valeurs des autres prédicteurs du modèle et, en général, non égal à

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Il n'est donc pas surprenant que vous observiez un écart entre le coefficient exponentialisé et le rapport de cotes observé.

β

Macro
la source
2
Wow, merci d'avoir pris le temps d'écrire une explication aussi complète.
Mike
@ Macro J'ai trouvé que "la valeur p étant inférieure à 0,05" et "l'IC à 95% n'inclut pas 1" ne sont pas cohérents dans la régression logistique (j'ai utilisé SAS). Ce phénomène est-il lié à votre explication?
user67275
4

exp(β)

μdans votre modèle, mais il y a aussi des problèmes si la vraie relation varie entre les niveaux d'une autre covariable mais qu'un terme d'interaction n'a pas été inclus, par exemple.) Une fois que nous avons établi qu'il est significatif de calculer un rapport de cotes en exponentiant une bêta à partir d'un modèle de régression logistique, nous pouvons nous demander quand les rapports de cotes basés sur le modèle et marginaux différeront, et lequel devriez-vous préférer quand ils le font?

0/1r0exp(β)

Si le OU marginal et le OU basé sur un modèle diffèrent, vous devez utiliser / interpréter la version basée sur un modèle. La raison en est que le OU marginal ne tient pas compte de la confusion entre vos covariables, contrairement au modèle. Ce phénomène est lié au paradoxe de Simpson , que vous voudrez peut-être lire (SEP a également une bonne entrée , il y a une discussion sur CV ici: Basic-simpson's-paradox , et vous pouvez rechercher sur la balise de CV ). Pour des raisons de simplicité et de praticité, vous pouvez simplement utiliser uniquement le modèle basé sur OR, car il sera clairement préférable ou identique.

gung - Réintégrer Monica
la source