Est-il judicieux d'utiliser la régression logistique avec un résultat binaire et un prédicteur?

18

J'ai une variable de résultat binaire {0,1} et une variable prédictive {0,1}. Je pense qu'il n'est pas logique de faire de la logistique à moins que j'inclue d'autres variables et que je calcule le rapport de cotes.

Avec un seul prédicteur binaire, le calcul de la probabilité ne suffirait-il pas par rapport au rapport de cotes?

keval
la source

Réponses:

26

Dans ce cas, vous pouvez réduire vos données pour où est le nombre d'instances pour et avec . Supposons qu'il y ait globalement observations. Sijx=iy=ji,j{0,1}n

XOui010S00S011SdixS11
SjejX=jey=jje,j{0,1}n

Si nous ajustons le modèle (où est notre fonction de lien), nous ' ll trouvera que est le logit de la proportion de succès quand et est le logit de la proportion de succès quand . En d'autres termes, et g β 0 x i = 0 β 0 + β 1 x i = 1 β 0 = g ( S 01pje=g-1(XjeTβ)=g-1(β0+β11Xje=1)gβ^0Xje=0β^0+β^1Xje=1 β 0+ β 1=g(S11

β^0=g(S01S00+S01)
β^0+β^1=g(S11Sdix+S11).

Vérifions que c'est R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Les coefficients de régression logistique sont donc exactement des transformations de proportions provenant du tableau.

Le résultat est que nous pouvons certainement analyser cet ensemble de données avec une régression logistique si nous avons des données provenant d'une série de variables aléatoires de Bernoulli, mais cela ne diffère pas de l'analyse directe du tableau de contingence résultant.


Je veux expliquer pourquoi cela fonctionne d'un point de vue théorique. Lorsque nous ajustons une régression logistique, nous utilisons le modèle que . Nous décidons ensuite de modéliser la moyenne comme une transformation d'un prédicteur linéaire en , ou en symboles . Dans notre cas, nous n'avons que deux valeurs uniques de , et donc il n'y a que deux valeurs uniques de , disons et . En raison de notre hypothèse d'indépendance, nous avons et Ouije|XjeBerne(pje)Xjepje=g-1(β0+β1Xje)Xjepjep0p1

je:Xje=0Ouije=S01Poubelle(n0,p0)
je:Xje=1Ouije=S11Poubelle(n1,p1).
Notez comment nous utilisons le fait que les , et à leur tour et , ne sont pas aléatoires: si ce n'était pas le cas, ceux-ci ne seraient pas nécessairement binomiaux.Xjen0n1

Cela signifie que

S01/n0=S01S00+S01pp0 et S11/n1=S11Sdix+S11pp1.

L'aperçu clé ici: nos VR Bernoulli sont tandis que nos VR binomiaux sont , mais les deux ont la même probabilité de succès. C'est la raison pour laquelle ces proportions du tableau de contingence estiment la même chose qu'une régression logistique au niveau de l'observation. Ce n'est pas seulement une coïncidence avec le tableau: c'est une conséquence directe des hypothèses de distribution que nous avons faites.Ouije|Xje=jBerne(pj)Sj1Poubelle(nj,pj)

jld
la source
1

Lorsque vous avez plusieurs prédicteurs et que tous les prédicteurs sont des variables binaires, vous pouvez ajuster un modèle à l'aide de la régression logique [1] (notez que c'est "Logique" et non "Logistique"). C'est utile lorsque vous pensez que les effets d'interaction entre vos prédicteurs sont importants. Il y a une implémentation dans R ( LogicRegpackage).

[1] Ruczinski, I., Kooperberg, C., et LeBlanc, M. (2003). Régression logique. Journal of Computational and graphical Statistics, 12 (3), 475-511.

horaceT
la source
1
La question concerne spécifiquement un régresseur, donc votre réponse ferait mieux de faire un commentaire.
Richard Hardy