J'ai deux prédicteurs dans un modèle de régression logistique binaire: un binaire et un continu. Mon objectif principal est de comparer les coefficients des deux prédicteurs au sein d'un même modèle.
Je suis tombé sur la suggestion d'Andrew Gelman de standardiser les variables d'entrée de régression continue:
I) Proposition originale (2008): diviser le prédicteur continu par 2 ET
Original manuscript:
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf
II) Recommandation mise à jour (2009): diviser le prédicteur continu par 1 SD ET recoder les valeurs d'entrée binaires de (0,1) à (-1, + 1)).
Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/
Une interprétation correcte des coefficients résultants m'échappe toujours:
SCÉNARIO 1: LES DEUX PRÉDICTEURS SONT IMPORTANTS DANS LE MÊME MODÈLE
Résultat: binaire non transformé Y Prédicteur continu: XCONT (divisé par 1 sd) Prédicteur binaire: XBIN (recodé pour prendre des valeurs -1 ou 1)
> orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN,
family=binomial(link="logit")))
> summary(orfit1c)
Call:
glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9842 -0.6001 -0.5481 -0.5481 1.9849
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.8197 0.1761 -10.331 < 2e-16 ***
XCONT 0.3175 0.1190 2.667 0.00765 **
XBIN 1.0845 0.3564 3.043 0.00234 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 385.88 on 407 degrees of freedom
AIC: 391.88
SCÉNARIO 2: NI SIGNIFICATIF DANS LE MÊME MODÈLE (MAIS lorsqu'ils sont saisis séparément dans deux modèles différents, leurs coefficients sont tous deux significatifs)
Call:
glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link =
"logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0090 -0.6265 -0.5795 -0.5795 1.9573
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.7562 0.1835 -9.570 <2e-16 ***
XCONT2 0.2182 0.1318 1.656 0.0977 .
XBIN2 0.6063 0.3918 1.547 0.1218
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 390.01 on 407 degrees of freedom
AIC: 396.01
Question: Pour la méthode de mise à l'échelle d'origine, il a été expliqué qu '"un changement d'une unité dans un prédicteur continu couvre deux écarts-types de ce prédicteur"
Pour la méthode de mise à l'échelle mise à jour, ai-je raison dans mon interprétation du scénario n ° 1:
(1) un changement d'une unité du prédicteur continu couvre 1 écart-type du XCONT
(2) et ce changement de 1 SD dans XCONT équivaut à un changement de 1 unité (c'est-à-dire absence ou présence) du prédicteur binaire (XBIN).
(3) en conséquence, 1 changement de SD dans XBIN prédit une augmentation de 1 unité de YBIN alors qu'une augmentation de 1/3 d'unité dans YCONT prédit une augmentation de 1 unité de YBIN?
DES QUESTIONS
L'interprétation décrite en 1-3 nécessite-t-elle une correction? Comme la variable de résultat binaire n'a pas été recodée, puis-je quand même dire qu'un changement d'une unité dans X prédit un changement d'une unité dans le résultat binaire (0 ou 1)?
Que dire de plus des résultats, en particulier lorsque j'essaie de comparer les deux coefficients des prédicteurs continu et binaire?