J'ai des données d'une expérience d'enquête dans laquelle les répondants ont été assignés au hasard à l'un des quatre groupes:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Bien que les trois groupes de traitement varient légèrement dans le stimulus appliqué, la principale distinction qui m'importe est entre les groupes de contrôle et de traitement. J'ai donc défini une variable fictive Control
:
> summary(df$Control)
TRUE FALSE
59 191
Dans l'enquête, les répondants ont été invités (entre autres) à choisir laquelle des deux choses ils préféraient:
> summary(df$Prefer)
A B NA's
152 93 5
Ensuite, après avoir reçu des stimuli déterminés par leur groupe de traitement (et aucun s'ils faisaient partie du groupe témoin), les répondants devaient choisir entre les deux mêmes choses:
> summary(df$Choice)
A B
149 101
Je veux savoir si le fait d'être dans l'un des trois groupes de traitement a eu un effet sur le choix que les répondants ont fait dans cette dernière question. Mon hypothèse est que les répondants qui ont reçu un traitement sont plus susceptibles de choisir A
que B
.
Étant donné que je travaille avec des données catégorielles, j'ai décidé d'utiliser une régression logit (n'hésitez pas à carilloner si vous pensez que c'est incorrect). Étant donné que les répondants ont été attribués au hasard, j'ai l'impression que je ne devrais pas nécessairement avoir besoin de contrôler d'autres variables (par exemple, les données démographiques), donc je les ai laissées de côté pour cette question. Mon premier modèle était simplement le suivant:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
J'ai l'impression que l'interception étant statistiquement significative n'est pas quelque chose qui a un sens interprétable. J'ai pensé que je devrais peut-être inclure un terme d'interaction comme suit:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Maintenant, le statut des répondants comme dans un groupe de traitement a l'effet attendu. Était-ce un ensemble d'étapes valide? Comment interpréter le terme d'interaction ControlFALSE:PreferA
? Les autres coefficients sont-ils toujours les cotes logarithmiques?
la source
Réponses:
Je suppose que PreferA = 1 lorsque l'on préfère A et 0 sinon et que ControlFALSE = 1 lorsqu'il est traité et 0 lorsque le contrôle.
La probabilité de préférer A lorsqu'une personne ne l'a pas fait auparavant et n'a pas reçu de traitement (ControlFALSE = 0 et PreferA = 0) est , c'est-à-dire que 23 de ces personnes préfèrent A pour chaque personne. qui préfère B. Donc, A est très populaire.exp( 3.135 ) = 23
L'effet du traitement signifie qu'une personne n'a pas préféré A auparavant (PreferA = 0). Dans ce cas, la cote de référence diminue d'un facteur ou lorsqu'elle ou il est soumis au traitement. Donc, les chances de choisir A pour ceux qui ont été traités et qui ne préféraient pas A auparavant sont de , donc il y a 2,3 personnes qui préfèrent A pour chaque personne qui préfère B. Donc, dans ce groupe, A est encore plus populaire que B, mais moins que dans le groupe non traité / de référence.( 1 - .099 ) × 100 % = - 90.1 % .099 ∗ 23 = 2,3exp( - 2,309 ) = 0,099 ( 1 - 0,099 ) × 100 % = - 90,1 % .099 ∗ 23 = 2,3
L'effet de la préférence pour A se réfère précédemment à une personne qui est un contrôle (ControlFALSE = 0). Dans ce cas, les cotes de base diminuent d'un facteur ou lorsque quelqu'un préférait A auparavant. (Donc, ceux qui ont jeté un coup d'œil à A auparavant sont beaucoup moins susceptibles de le faire maintenant.- 99,4 %.006 - 99,4 %
L'effet d'interaction compare l'effet du traitement pour les personnes qui ont préféré A auparavant et celles qui ne l'ont pas fait. Si une personne préférait A auparavant (PreferA = 1), alors le rapport de cotes du traitement augmente d'un facteur . Le rapport de cotes du traitement pour ceux qui préféraient A auparavant est donc de . Alternativement, ce rapport de cotes de traitement pour ceux qui préféraient auparavant A pourrait être calculé comme .17,3 × .099 = 1,71 exp ( 2,850 - 2,309 )exp( 2,850 ) = 17,3 17,3 × 0,099 = 1,71 exp( 2,850 - 2,309 )
Ainsi, la constante exponentiée vous donne les cotes de base , les coefficients exponentiels des principaux effets vous donnent les rapports de cotes lorsque l'autre variable est égale à 0, et le coefficient exponentialisé des termes d'interaction vous indique le rapport selon lequel le rapport de cotes change .
la source
ControlFALSE
valeur p est élevée dans le premier modèle, puis assez faible dans le deuxième modèle. Appliquant votre réponse à mon autre question à ce cas spécifique, vous avez dit que cela pourrait se produire si celaControl
avait un effet négatif sur un groupe dePrefer
et un effet positif sur l'autre.ControlFALSE
dans le premier modèle est l'effet du traitement pour deux personnes la preferred A précédemment et ceux qui ne l'a pas, alors que l'effet dans le second modèle est que l'effet du traitement pour ceux qui ne préfèrent un auparavant. Que ce soit correct ou non n'est pas une question statistique, mais si cela a un sens sur le fond.J'ai également trouvé cet article utile pour interpréter l'interaction dans la régression logistique:
Chen, JJ (2003). Communiquer des informations complexes: l'interprétation de l'interaction statistique dans l'analyse de régression logistique multiple . Journal américain de santé publique , 93 (9), 1376-1377.
la source
Ma propre préférence, lorsque j'essaie d'interpréter les interactions dans la régression logistique, est de regarder les probabilités prédites pour chaque combinaison de variables catégorielles. Dans votre cas, ce ne serait que 4 probabilités:
Lorsque j'ai des variables continues, je regarde généralement la valeur prédite aux médians, 1er et 3e quartiles.
Bien que cela n'intervienne pas directement dans l'interprétation de chaque coefficient, je trouve que cela me permet souvent (et à mes clients) de voir ce qui se passe de manière claire.
la source