Dans ce cas, vous pouvez réduire vos données pour
où est le nombre d'instances pour et avec . Supposons qu'il y ait globalement observations. Sijx=iy=ji,j∈{0,1}n
X∖ Y010S00Sdix1S01S11
Sje jx = iy= ji , j ∈ { 0 , 1 }n
Si nous ajustons le modèle (où est notre fonction de lien), nous ' ll trouvera que est le logit de la proportion de succès quand et est le logit de la proportion de succès quand . En d'autres termes,
et
g β 0 x i = 0 β 0 + β 1 x i = 1 β 0 = g ( S 01pje= g- 1( xTjeβ) = g- 1( β0+ β11Xje= 1)gβ^0Xje= 0β^0+ β^1Xje= 1 β 0+ β 1=g(S11
β^0= g( S01S00+ S01)
β^0+ β^1= g( S11Sdix+ S11) .
Vérifions que c'est R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Les coefficients de régression logistique sont donc exactement des transformations de proportions provenant du tableau.
Le résultat est que nous pouvons certainement analyser cet ensemble de données avec une régression logistique si nous avons des données provenant d'une série de variables aléatoires de Bernoulli, mais cela ne diffère pas de l'analyse directe du tableau de contingence résultant.
Je veux expliquer pourquoi cela fonctionne d'un point de vue théorique. Lorsque nous ajustons une régression logistique, nous utilisons le modèle que . Nous décidons ensuite de modéliser la moyenne comme une transformation d'un prédicteur linéaire en , ou en symboles . Dans notre cas, nous n'avons que deux valeurs uniques de , et donc il n'y a que deux valeurs uniques de , disons et . En raison de notre hypothèse d'indépendance, nous avons
et
Ouije| Xje∼⊥Berne ( pje)Xjepje= g- 1( β0+ β1Xje)Xjepjep0p1
∑i : xje= 0Ouije= S01∼ Bin ( n0, p0)
∑i : xje= 1Ouije= S11∼ Bin ( n1, p1) .
Notez comment nous utilisons le fait que les , et à leur tour et , ne sont pas aléatoires: si ce n'était pas le cas, ceux-ci ne seraient pas nécessairement binomiaux.
Xjen0n1
Cela signifie que
S01/ n0= S01S00+ S01→pp0 et S11/ n1= S11Sdix+ S11→pp1.
L'aperçu clé ici: nos VR Bernoulli sont tandis que nos VR binomiaux sont , mais les deux ont la même probabilité de succès. C'est la raison pour laquelle ces proportions du tableau de contingence estiment la même chose qu'une régression logistique au niveau de l'observation. Ce n'est pas seulement une coïncidence avec le tableau: c'est une conséquence directe des hypothèses de distribution que nous avons faites.Ouije| Xje= j ∼ Berne ( pj)Sj 1∼ Bin ( nj, pj)