Interprétation des coefficients d'une interaction entre variable catégorielle et variable continue

10

J'ai une question sur l'interprétation des coefficients d'une interaction entre variable continue et variable catégorielle. voici mon modèle:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

disons que l'équation du modèle est:

E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centré) + autres covars, où

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

Ma question est: si mon interprétation est correcte, comment construire des intervalles de confiance pour chaque estimation d'effet des interactions (par exemple: b1 + b2) à partir des intervalles de confiance de b1 et b2.

Vous en sécurité
la source
pas très familier avec la façon de faire cela dans R. supposons qu'en sas vous pouvez obtenir le résultat par l'instruction "estimation", reportez-vous à support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…
boomean

Réponses:

8

Votre interprétation des coefficients du modèle n'est pas complètement exacte. Permettez-moi d'abord de résumer les termes du modèle.

Variables catégorielles (facteurs): , etracesexeduca

Le facteur racea quatre niveaux: .race={white,black,mexican,multi/other}

Le facteur sexa deux niveaux: .sex={male,female}

Le facteur educaa cinq niveaux: .educa={1,2,3,4,5}

Par défaut, R utilise des contrastes de traitement pour les variables catégorielles. Dans ces contrastes, la première valeur du facteur est utilisée comme niveau de référence et les valeurs restantes sont testées par rapport à la référence. Le nombre maximal de contrastes pour une variable catégorielle est égal au nombre de niveaux moins un.

Les contrastes racepermettent de tester les différences suivantes: , , et .race=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white

Pour le facteur , le niveau de référence est , le schéma des contrastes est analogue. Ces effets peuvent être interprétés comme la différence de la variable dépendante. Dans votre exemple, la valeur moyenne de est de unités plus élevée pour pour ( ).educa1cog13.8266educa=2educa=1as.factor(educa)2

Remarque importante: si des contrastes de traitement pour une variable catégorielle sont présents dans un modèle, l'estimation d'autres effets est basée sur le niveau de référence de la variable catégorielle si les interactions entre d'autres effets et la variable catégorielle sont également incluses. Si la variable ne fait pas partie d'une interaction, son coefficient correspond à la moyenne des pentes individuelles des sous-ensembles de cette variable le long de toutes les variables catégorielles restantes. Les effets de la et de l' correspondent aux effets moyens par rapport aux niveaux de facteurs des autres variables. Pour tester les effets globaux de la , vous devez exclure l' et le du modèle.raceeducaraceeducasex

Variables numériques: etlg_hagpdg

Les deux lg_haget pdgsont des variables numériques, donc les coefficients représentent le changement de la variable dépendante associé à une augmentation de dans le prédicteur.1

En principe, l'interprétation de ces effets est simple. Mais notez que si des interactions sont présentes, l'estimation des coefficients est basée sur les catégories de référence des facteurs (si des contrastes de traitement sont utilisés). Puisque ne fait pas partie d'une interaction, son coefficient correspond à la pente moyenne de la variable par rapport. La variable fait également partie d'une interaction avec . Par conséquent, son effet est valable pour , le niveau de base .; ce n'est pas un test d'une influence globale de la variable numérique quels soient les niveaux des facteurs.pdglg_hageducaeduca=1lg_hag

Interactions entre les variables catégorielles et numériques: lg_hag×educa

Le modèle ne comprend pas seulement les effets principaux mais aussi les interactions entre la variable numérique et les quatre contrastes associés à . Ces effets peuvent être interprétés comme la différence dans les pentes de entre un certain niveau d' et le niveau de référence ( ).lg_hageducalg_hageducaeduca=1

Par exemple, le coefficient de lg_hag:as.factor(educa)2( -21.2224) signifie que la pente de est inférieure de unités pour par rapport à .21.2224 e d u c a = 2 e d u c a = 1lg_hag21.2224educa=2educa=1

Sven Hohenstein
la source
"Ces coefficients d'interaction sont également valables pour race=whiteet sex=maleseulement." En êtes-vous sûr? Je demande parce que raceni sexn'est en interaction avec le lg_hag×educaterme ... Je regarde plusieurs textes je ne vois pas cela explicitement indiqué.
landroni
2
@landroni Les pentes sont estimées pour le point où tous les prédicteurs restants sont égaux à 0.
Sven Hohenstein
Oui, c'est aussi ce que je comprends. Tous les autres prédicteurs sont maintenus constants, ce qui signifie que les facteurs sont fixés à leur niveau de référence. Mais c'est là que réside mon énigme: j'ai regardé plusieurs livres qui semblent pour la plupart occulter cette nuance subtile mais d'une grande portée. De plus, les articles souvent «contrôlés par l'industrie» tirent des conclusions comme si les coefficients étaient inconditionnels sur l'échantillon complet, au lieu de souligner que ce n'est que pour le niveau de référence. Voir aussi: stats.stackexchange.com/questions/146665/ …
landroni
1
"Si des contrastes de traitement pour une variable catégorielle sont présents dans un modèle, l'estimation d'autres effets est basée sur le niveau de référence de la variable catégorielle." Après un examen plus approfondi, je ne suis pas convaincu (ou je ne suis pas tout à fait votre argument). Vous semblez impliquer que l'estimation de la beta par exemple pdgdépend du niveau de référence, ce qui n'est clairement pas le cas. Si je modifie le niveau de référence de l'un des facteurs (par exemple sex), l'estimation pour pdgne changera PAS ...
landroni
1
@landroni Merci d'avoir souligné. Vous avez raison, cette déclaration est trompeuse. En fait, cela ne vaut que pour les prédicteurs qui font également partie des termes d'interaction avec des variables catégorielles. Par conséquent, l'estimation de pdgne dépend en effet pas de la spécification des contrastes. Je modifierai la réponse en conséquence.
Sven Hohenstein le