J'ai une question sur l'interprétation des coefficients d'une interaction entre variable continue et variable catégorielle. voici mon modèle:
model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)),
data=base_708)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.4836 2.0698 10.380 < 2e-16 ***
lg_hag 8.5691 3.7688 2.274 0.02334 *
raceblack -8.4715 1.7482 -4.846 1.61e-06 ***
racemexican -3.0483 1.7073 -1.785 0.07469 .
racemulti/other -4.6002 2.3098 -1.992 0.04687 *
pdg 2.8038 0.4268 6.570 1.10e-10 ***
sexfemale 4.5691 1.1203 4.078 5.15e-05 ***
as.factor(educa)2 13.8266 2.6362 5.245 2.17e-07 ***
as.factor(educa)3 21.7913 2.4424 8.922 < 2e-16 ***
as.factor(educa)4 19.0179 2.5219 7.541 1.74e-13 ***
as.factor(educa)5 23.7470 2.7406 8.665 < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224 6.5904 -3.220 0.00135 **
lg_hag:as.factor(educa)3 -19.8083 6.1255 -3.234 0.00129 **
lg_hag:as.factor(educa)4 -8.5502 6.6018 -1.295 0.19577
lg_hag:as.factor(educa)5 -17.2230 6.3711 -2.703 0.00706 ***
disons que l'équation du modèle est:
E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centré) + autres covars, où
b1 = difference in cog with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg
Ma question est: si mon interprétation est correcte, comment construire des intervalles de confiance pour chaque estimation d'effet des interactions (par exemple: b1 + b2) à partir des intervalles de confiance de b1 et b2.
categorical-data
generalized-linear-model
interaction
interpretation
Vous en sécurité
la source
la source
Réponses:
Votre interprétation des coefficients du modèle n'est pas complètement exacte. Permettez-moi d'abord de résumer les termes du modèle.
Variables catégorielles (facteurs): , etr a c e s e x e du c a
Le facteurr a c e = { w h i t e , b l a c k , m e x i c a n , m u l t i / o t h e r }
race
a quatre niveaux: .Le facteurs e x = { m a l e , fe m a l e }
sex
a deux niveaux: .Le facteure du c a = { 1 , 2 , 3 , 4 , 5 }
educa
a cinq niveaux: .Par défaut, R utilise des contrastes de traitement pour les variables catégorielles. Dans ces contrastes, la première valeur du facteur est utilisée comme niveau de référence et les valeurs restantes sont testées par rapport à la référence. Le nombre maximal de contrastes pour une variable catégorielle est égal au nombre de niveaux moins un.
Les contrastesr a c e = b l a c k v s . r a c e = w h i t e r a c e = m e x i c a n v s . r a c e = w h i t e r a c e = m u l t i / o t h e r v s . r a c e = w h i t e
race
permettent de tester les différences suivantes: , , et .Pour le facteur , le niveau de référence est , le schéma des contrastes est analogue. Ces effets peuvent être interprétés comme la différence de la variable dépendante. Dans votre exemple, la valeur moyenne de est de unités plus élevée pour pour ( ).e du c a 1 13.8266 educa=2 educa=1
cog
as.factor(educa)2
Remarque importante: si des contrastes de traitement pour une variable catégorielle sont présents dans un modèle, l'estimation d'autres effets est basée sur le niveau de référence de la variable catégorielle si les interactions entre d'autres effets et la variable catégorielle sont également incluses. Si la variable ne fait pas partie d'une interaction, son coefficient correspond à la moyenne des pentes individuelles des sous-ensembles de cette variable le long de toutes les variables catégorielles restantes. Les effets de la et de l' correspondent aux effets moyens par rapport aux niveaux de facteurs des autres variables. Pour tester les effets globaux de la , vous devez exclure l' et le du modèle.race educa race educa sex
Variables numériques: etlg_hag pdg
Les deux1
lg_hag
etpdg
sont des variables numériques, donc les coefficients représentent le changement de la variable dépendante associé à une augmentation de dans le prédicteur.En principe, l'interprétation de ces effets est simple. Mais notez que si des interactions sont présentes, l'estimation des coefficients est basée sur les catégories de référence des facteurs (si des contrastes de traitement sont utilisés). Puisque ne fait pas partie d'une interaction, son coefficient correspond à la pente moyenne de la variable par rapport. La variable fait également partie d'une interaction avec . Par conséquent, son effet est valable pour , le niveau de base .; ce n'est pas un test d'une influence globale de la variable numérique quels soient les niveaux des facteurs.pdg lg_hag educa educa=1 lg_hag
Interactions entre les variables catégorielles et numériques:lg_hag×educa
Le modèle ne comprend pas seulement les effets principaux mais aussi les interactions entre la variable numérique et les quatre contrastes associés à . Ces effets peuvent être interprétés comme la différence dans les pentes de entre un certain niveau d' et le niveau de référence ( ).lg_hag educa lg_hag educa educa=1
Par exemple, le coefficient delg_hag 21.2224 educa=2 educa=1
lg_hag:as.factor(educa)2
(-21.2224
) signifie que la pente de est inférieure de unités pour par rapport à .21.2224 e d u c a = 2 e d u c a = 1la source
race=white
etsex=male
seulement." En êtes-vous sûr? Je demande parce querace
nisex
n'est en interaction avec lelg_hag×educa
terme ... Je regarde plusieurs textes je ne vois pas cela explicitement indiqué.pdg
dépend du niveau de référence, ce qui n'est clairement pas le cas. Si je modifie le niveau de référence de l'un des facteurs (par exemplesex
), l'estimation pourpdg
ne changera PAS ...pdg
ne dépend en effet pas de la spécification des contrastes. Je modifierai la réponse en conséquence.