Interprétation des termes d'interaction dans la régression logit avec des variables catégorielles

25

J'ai des données d'une expérience d'enquête dans laquelle les répondants ont été assignés au hasard à l'un des quatre groupes:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Bien que les trois groupes de traitement varient légèrement dans le stimulus appliqué, la principale distinction qui m'importe est entre les groupes de contrôle et de traitement. J'ai donc défini une variable fictive Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

Dans l'enquête, les répondants ont été invités (entre autres) à choisir laquelle des deux choses ils préféraient:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Ensuite, après avoir reçu des stimuli déterminés par leur groupe de traitement (et aucun s'ils faisaient partie du groupe témoin), les répondants devaient choisir entre les deux mêmes choses:

> summary(df$Choice)
  A    B 
149  101 

Je veux savoir si le fait d'être dans l'un des trois groupes de traitement a eu un effet sur le choix que les répondants ont fait dans cette dernière question. Mon hypothèse est que les répondants qui ont reçu un traitement sont plus susceptibles de choisir Aque B.

Étant donné que je travaille avec des données catégorielles, j'ai décidé d'utiliser une régression logit (n'hésitez pas à carilloner si vous pensez que c'est incorrect). Étant donné que les répondants ont été attribués au hasard, j'ai l'impression que je ne devrais pas nécessairement avoir besoin de contrôler d'autres variables (par exemple, les données démographiques), donc je les ai laissées de côté pour cette question. Mon premier modèle était simplement le suivant:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

J'ai l'impression que l'interception étant statistiquement significative n'est pas quelque chose qui a un sens interprétable. J'ai pensé que je devrais peut-être inclure un terme d'interaction comme suit:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Maintenant, le statut des répondants comme dans un groupe de traitement a l'effet attendu. Était-ce un ensemble d'étapes valide? Comment interpréter le terme d'interaction ControlFALSE:PreferA? Les autres coefficients sont-ils toujours les cotes logarithmiques?

Pygmalion
la source
Ma réponse ici est pertinente: stats.stackexchange.com/questions/246873/…
kjetil b halvorsen

Réponses:

31

Je suppose que PreferA = 1 lorsque l'on préfère A et 0 sinon et que ControlFALSE = 1 lorsqu'il est traité et 0 lorsque le contrôle.

La probabilité de préférer A lorsqu'une personne ne l'a pas fait auparavant et n'a pas reçu de traitement (ControlFALSE = 0 et PreferA = 0) est , c'est-à-dire que 23 de ces personnes préfèrent A pour chaque personne. qui préfère B. Donc, A est très populaire.exp(3.135)=23

L'effet du traitement signifie qu'une personne n'a pas préféré A auparavant (PreferA = 0). Dans ce cas, la cote de référence diminue d'un facteur ou lorsqu'elle ou il est soumis au traitement. Donc, les chances de choisir A pour ceux qui ont été traités et qui ne préféraient pas A auparavant sont de , donc il y a 2,3 personnes qui préfèrent A pour chaque personne qui préfère B. Donc, dans ce groupe, A est encore plus populaire que B, mais moins que dans le groupe non traité / de référence.( 1 - .099 ) × 100 % = - 90.1 % .099 23 = 2,3exp(-2,309)=.099(1-.099)×100%=-90,1%.09923=2.3

L'effet de la préférence pour A se réfère précédemment à une personne qui est un contrôle (ControlFALSE = 0). Dans ce cas, les cotes de base diminuent d'un facteur ou lorsque quelqu'un préférait A auparavant. (Donc, ceux qui ont jeté un coup d'œil à A auparavant sont beaucoup moins susceptibles de le faire maintenant.- 99,4 %.006-99,4%

L'effet d'interaction compare l'effet du traitement pour les personnes qui ont préféré A auparavant et celles qui ne l'ont pas fait. Si une personne préférait A auparavant (PreferA = 1), alors le rapport de cotes du traitement augmente d'un facteur . Le rapport de cotes du traitement pour ceux qui préféraient A auparavant est donc de . Alternativement, ce rapport de cotes de traitement pour ceux qui préféraient auparavant A pourrait être calculé comme .17,3 × .099 = 1,71 exp ( 2,850 - 2,309 )exp(2,850)=17,317,3×.099=1,71exp(2,850-2,309)

Ainsi, la constante exponentiée vous donne les cotes de base , les coefficients exponentiels des principaux effets vous donnent les rapports de cotes lorsque l'autre variable est égale à 0, et le coefficient exponentialisé des termes d'interaction vous indique le rapport selon lequel le rapport de cotes change .

Maarten Buis
la source
Merci Maarten, c'est très utile, tout comme votre réponse à mon autre question connexe. J'aimerais juste un éclaircissement sur un point, cependant. Comme je l'ai mentionné dans mon autre question, je m'inquiète de la validité statistique de ce que j'ai fait ici en raison du fait que la ControlFALSEvaleur p est élevée dans le premier modèle, puis assez faible dans le deuxième modèle. Appliquant votre réponse à mon autre question à ce cas spécifique, vous avez dit que cela pourrait se produire si cela Controlavait un effet négatif sur un groupe de Preferet un effet positif sur l'autre.
Pygmalion le
(manqué d'espace) Cette interprétation a-t-elle un sens ici? Je ne sais pas exactement comment l'appliquer directement.
Pygmalion le
L'effet de ControlFALSEdans le premier modèle est l'effet du traitement pour deux personnes la preferred A précédemment et ceux qui ne l'a pas, alors que l'effet dans le second modèle est que l'effet du traitement pour ceux qui ne préfèrent un auparavant. Que ce soit correct ou non n'est pas une question statistique, mais si cela a un sens sur le fond.
Maarten Buis
@MaartenBuis Grande explication. Comment feriez-vous les calculs équivalents pour les intervalles de confiance des estimations? Pour faciliter l'interprétation, j'ai généralement stratifié les modèles logistiques (par exemple par préférence préalable dans cet exemple) et j'utilise le terme d'interaction comme "test statistique pour une différence significative en OR. Est-ce acceptable?
bobmcpop
2

J'ai également trouvé cet article utile pour interpréter l'interaction dans la régression logistique:

Chen, JJ (2003). Communiquer des informations complexes: l'interprétation de l'interaction statistique dans l'analyse de régression logistique multiple . Journal américain de santé publique , 93 (9), 1376-1377.

deepseas
la source
4
J'ai fourni une référence complète (titre, auteur, date, revue, etc.) ce qui signifie que la contribution sera toujours utile si l'adresse du lien change. Mais pourriez-vous développer ce résumé pour en résumer le contenu? Sinon, c'est vraiment plus un commentaire qu'une réponse - nous préférons que nos réponses soient autonomes, donc elles résistent au "link-rot". Alternativement, nous pouvons convertir cela en un commentaire pour vous.
Silverfish
Merci. Je reliais NCBI donc j'ai pensé que ce serait bien. Je suis d'accord avec les changements. Merci!
deepseas
0

Ma propre préférence, lorsque j'essaie d'interpréter les interactions dans la régression logistique, est de regarder les probabilités prédites pour chaque combinaison de variables catégorielles. Dans votre cas, ce ne serait que 4 probabilités:

  1. Préférez A, contrôle vrai
  2. Préférez A, contrôlez faux
  3. Préfère B, contrôle vrai
  4. Préférez B, contrôlez faux

Lorsque j'ai des variables continues, je regarde généralement la valeur prédite aux médians, 1er et 3e quartiles.

Bien que cela n'intervienne pas directement dans l'interprétation de chaque coefficient, je trouve que cela me permet souvent (et à mes clients) de voir ce qui se passe de manière claire.

Peter Flom - Réintégrer Monica
la source