Interprétation des coefficients de régression basés sur la méthode de redimensionnement d'Andrew Gelman

8

J'ai deux prédicteurs dans un modèle de régression logistique binaire: un binaire et un continu. Mon objectif principal est de comparer les coefficients des deux prédicteurs au sein d'un même modèle.

Je suis tombé sur la suggestion d'Andrew Gelman de standardiser les variables d'entrée de régression continue:

I) Proposition originale (2008): diviser le prédicteur continu par 2 ET

Original manuscript: 
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

II) Recommandation mise à jour (2009): diviser le prédicteur continu par 1 SD ET recoder les valeurs d'entrée binaires de (0,1) à (-1, + 1)).

Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/

Une interprétation correcte des coefficients résultants m'échappe toujours:

SCÉNARIO 1: LES DEUX PRÉDICTEURS SONT IMPORTANTS DANS LE MÊME MODÈLE

Résultat: binaire non transformé Y Prédicteur continu: XCONT (divisé par 1 sd) Prédicteur binaire: XBIN (recodé pour prendre des valeurs -1 ou 1)

  > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, 
   family=binomial(link="logit")))
  > summary(orfit1c)

   Call:
   glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))

   Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
       -0.9842  -0.6001  -0.5481  -0.5481   1.9849  

       Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
        (Intercept)  -1.8197     0.1761 -10.331  < 2e-16 ***
        XCONT         0.3175     0.1190   2.667  0.00765 ** 
        XBIN          1.0845     0.3564   3.043  0.00234 ** 
        ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

       (Dispersion parameter for binomial family taken to be 1)

       Null deviance: 398.99  on 409  degrees of freedom
       Residual deviance: 385.88  on 407  degrees of freedom
       AIC: 391.88

SCÉNARIO 2: NI SIGNIFICATIF DANS LE MÊME MODÈLE (MAIS lorsqu'ils sont saisis séparément dans deux modèles différents, leurs coefficients sont tous deux significatifs)

       Call:
      glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link = 
       "logit"))

               Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
          -1.0090  -0.6265  -0.5795  -0.5795   1.9573  

            Coefficients:
                   Estimate Std. Error z value Pr(>|z|)    
       (Intercept)  -1.7562     0.1835  -9.570   <2e-16 ***
       XCONT2         0.2182     0.1318   1.656   0.0977 .  
       XBIN2        0.6063     0.3918   1.547   0.1218    
                         ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

          (Dispersion parameter for binomial family taken to be 1)

          Null deviance: 398.99  on 409  degrees of freedom
          Residual deviance: 390.01  on 407  degrees of freedom
          AIC: 396.01

Question: Pour la méthode de mise à l'échelle d'origine, il a été expliqué qu '"un changement d'une unité dans un prédicteur continu couvre deux écarts-types de ce prédicteur"

Pour la méthode de mise à l'échelle mise à jour, ai-je raison dans mon interprétation du scénario n ° 1:

(1) un changement d'une unité du prédicteur continu couvre 1 écart-type du XCONT

(2) et ce changement de 1 SD dans XCONT équivaut à un changement de 1 unité (c'est-à-dire absence ou présence) du prédicteur binaire (XBIN).

(3) en conséquence, 1 changement de SD dans XBIN prédit une augmentation de 1 unité de YBIN alors qu'une augmentation de 1/3 d'unité dans YCONT prédit une augmentation de 1 unité de YBIN?

DES QUESTIONS

  • L'interprétation décrite en 1-3 nécessite-t-elle une correction? Comme la variable de résultat binaire n'a pas été recodée, puis-je quand même dire qu'un changement d'une unité dans X prédit un changement d'une unité dans le résultat binaire (0 ou 1)?

  • Que dire de plus des résultats, en particulier lorsque j'essaie de comparer les deux coefficients des prédicteurs continu et binaire?

ksroogl
la source

Réponses:

-1

(1) est un peu maladroitement énoncé, et je ne sais pas exactement ce que vous voulez dire. J'interpréterais l'estimation du paramètre XCONT comme:

Les observations un écart-type au-dessus de la moyenne de XCONT ont YBIN ~ 32 pour cent plus souvent.

Lorsque vous interprétez l'estimation des paramètres XBIN, gardez à l'esprit que vous interprétez à la moyenne de XCONT.

Richard McElreath travaille à travers un exemple de cette mise à l'échelle dans Statistical Rethinking.

atmo
la source
2
Cette réponse n'a pas de sens.
Michael R. Chernick
@MichaelChernick apprécierait vos réflexions sur la question d'origine
ksroogl
Je ne connais pas la logique de Gelman. Je ne comprends pas pourquoi il change la valeur binaire 0 en -1.
Michael R. Chernick
@MichaelChernick Je pense que c'est pour que les niveaux binaires redimensionnés puissent être symétriques autour de 0.
shadowtalker
Cela pourrait certainement fonctionner. Pourquoi la symétrie autour de 0 est-elle une bonne chose à faire?.
Michael R. Chernick