Coefficient négatif dans la régression logistique ordonnée

17

Supposons que nous ayons la réponse ordinale et un ensemble de variables que nous pensons vous expliquera . Nous faisons ensuite une régression logistique ordonnée de (matrice de conception) sur (réponse).y:{Bad, Neutral, Good}{1,2,3}X:=[x1,x2,x3]yXy

Supposons que le coefficient estimé de , appelez-le , dans la régression logistique ordonnée soit . Comment interpréter le rapport de cotes (OR) de ?x1β^10.5e0.5=0.607

Dois-je dire "pour une augmentation d'une unité de , ceteris paribus, les chances d'observer sont fois les chances d'observer , et pour le même changement de , les chances d'observer sont fois les chances d'observer \ text {Mauvais} "?x1Good0.607BadNeutralx1NeutralGood0.607Bad

Je ne trouve aucun exemple d'interprétation de coefficient négatif dans mon manuel ou Google.

mdewey
la source
2
Oui c'est correct. C'est presque identique à la façon dont vous interprétez les coefficients positifs.
Peter Flom - Réintègre Monica
2
NB: on dit généralement "régresser y sur X ", et non l'inverse.
gung - Rétablir Monica

Réponses:

25

Vous êtes sur la bonne voie, mais regardez toujours la documentation du logiciel que vous utilisez pour voir quel modèle est réellement adapté. Supposons une situation avec une variable dépendante catégorique avec les catégories ordonnées et les prédicteurs .1 , , g , , k X 1 , , X j , , X pY1,,g,,kX1,,Xj,,Xp

"Dans la nature", vous pouvez rencontrer trois choix équivalents pour écrire le modèle théorique de cotes proportionnelles avec différentes significations de paramètres implicites:

  1. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g+β1X1++βpXp(g=1,,k1)
  2. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g(β1X1++βpXp)(g=1,,k1)
  3. logit(p(Yg))=lnp(Yg)p(Y<g)=β0g+β1X1++βpXp(g=2,,k)

(Les modèles 1 et 2 ont la restriction que dans les régressions logistiques binaires distinctes, les ne varient pas avec , et , le modèle 3 a la même restriction sur le , et requiert que )β j g β 0 1 < < β 0 g < < β 0 k - 1 β j β 0 2 > > β 0 g > > β 0 kk1βjgβ01<<β0g<<β0k1βjβ02>>β0g>>β0k

  • Dans le modèle 1, un positif signifie qu'une augmentation de prédicteur est associée à une probabilité accrue d'une faible catégorie en . X jβjXjY
  • Le modèle 1 est quelque peu contre-intuitif, donc le modèle 2 ou 3 semble être le logiciel préféré. Ici, un positif signifie qu'une augmentation de prédicteur est associée à une probabilité accrue pour une plus catégorie . X jβjXjY
  • Les modèles 1 et 2 conduisent aux mêmes estimations pour le , mais leurs estimations pour le ont des signes opposés. β jβ0gβj
  • Les modèles 2 et 3 conduisent aux mêmes estimations pour le , mais leurs estimations pour le ont des signes opposés. β 0 gβjβ0g

En supposant que votre logiciel utilise le modèle 2 ou 3, vous pouvez dire "avec une augmentation d'une unité de , ceteris paribus, les chances prévues d'observer ' ' par rapport à l'observation de ' 'change d'un facteur . ", et de même" avec une augmentation de 1 unité de , ceteris paribus, les chances prévues d'observer' 'par rapport à l'observation de la modification de ' 'd'un facteur . " Notez que dans le cas empirique, nous n'avons que les cotes prévues, pas les réelles.X1Y=GoodY=Neutral OR Badeβ^1=0.607X1Y=Good OR NeutralY=Badeβ^1=0.607

Voici quelques illustrations supplémentaires pour le modèle 1 avec catégories. Premièrement, l'hypothèse d'un modèle linéaire pour les logits cumulatifs à cotes proportionnelles. Deuxièmement, les probabilités implicites d'observer au plus la catégorie . Les probabilités suivent des fonctions logistiques de même forme. k=4genter image description here

Pour les probabilités de catégorie elles-mêmes, le modèle représenté implique les fonctions ordonnées suivantes: enter image description here

PS À ma connaissance, le modèle 2 est utilisé dans SPSS ainsi que dans les fonctions R MASS::polr()et ordinal::clm(). Le modèle 3 est utilisé dans les fonctions R rms::lrm()et VGAM::vglm(). Malheureusement, je ne connais pas SAS et Stata.

caracal
la source
@Harokitty Le modèle de régression logistique binaire n'a pas de terme d'erreur comme le modèle de régression linéaire. Notez que nous modélisons une probabilité, pas la variable dépendante elle-même. L'hypothèse d'une distribution d'erreur pour doit être spécifiée séparément, par exemple dans R avec . Yglm(..., family=binomial)
caracal
Avez-vous une référence qui traite de la façon d'exprimer la spécification # 2 dans votre liste de 3 alternatives?
1
@Harokitty Il est brièvement décrit dans "Analyse des données catégorielles ordinales " d'Agresti, section 3.2.2, p49, équation 3.8 . Alternativement dans "Analyse de données catégoriques" d'Agresti, section 9.4, p323, équation 9.12.
caracal du
Bonjour, désolé de vous déranger, avez-vous une référence pour le 3ème? Agresti ne semble pas en parler.
2
@Jase Eh bien, Agresti utilise simplement dans la section liée ci-dessus. Pour logit ( Y g ) , voir Harrell's "Regression Modeling Strategies", section 13.3.1, p333, eqn 13.4. logit(Y>g)logit(Yg)
caracal