Si je comprends bien, la valeur bêta exponentielle d'une régression logistique est le rapport de cotes de cette variable pour la variable dépendante d'intérêt. Cependant, la valeur ne correspond pas au rapport de cotes calculé manuellement. Mon modèle prédit le retard de croissance (une mesure de la malnutrition) en utilisant, entre autres indicateurs, l'assurance.
// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc.
or_insurance = exp(beta_value_insurance)
// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins
Quelle est la raison conceptuelle de ces valeurs différentes? Contrôle d'autres facteurs dans la régression? Je veux juste être en mesure d'expliquer l'écart.
Réponses:
Si vous ne mettez que ce seul prédicteur dans le modèle, le rapport de cotes entre le prédicteur et la réponse sera exactement égal au coefficient de régression exponentialisé . Je ne pense pas qu'une dérivation de ce résultat soit présente sur le site, je vais donc profiter de l'occasion pour le fournir.
En régression logistique, vous modélisez directement ces probabilités:
et le second est:
c'est donc le rapport de cotes conditionnel aux valeurs des autres prédicteurs du modèle et, en général, non égal à
Il n'est donc pas surprenant que vous observiez un écart entre le coefficient exponentialisé et le rapport de cotes observé.
la source
Si le OU marginal et le OU basé sur un modèle diffèrent, vous devez utiliser / interpréter la version basée sur un modèle. La raison en est que le OU marginal ne tient pas compte de la confusion entre vos covariables, contrairement au modèle. Ce phénomène est lié au paradoxe de Simpson , que vous voudrez peut-être lire (SEP a également une bonne entrée , il y a une discussion sur CV ici: Basic-simpson's-paradox , et vous pouvez rechercher sur la balise simpsons-paradox de CV ). Pour des raisons de simplicité et de praticité, vous pouvez simplement utiliser uniquement le modèle basé sur OR, car il sera clairement préférable ou identique.
la source