Faire disparaître ou régresser une variable catégorielle?

9

Parfois, je constate dans la littérature qu'une variable catégorielle telle que le sexe est «partielle» ou «régressive» dans l'analyse de régression (effets fixes ou effets mixtes). Je suis troublé par les problèmes pratiques suivants impliqués dans une telle déclaration:

(1) Habituellement, la méthode de codage n'est pas mentionnée dans l'article. Une telle variable doit être codée avec des valeurs quantitatives, et je pense que la méthode la plus sensée devrait être le codage d'effet (par exemple, mâle = 1, femelle = -1) afin que la partiellisation puisse être réalisée avec d'autres effets interprétés à la grande moyenne des deux sexes groupes. Un codage différent peut rendre une interprétation différente (et indésirable). Par exemple, un codage fictif (par exemple, homme = 0, femme = 1) laisserait d'autres effets associés aux hommes, et non la moyenne. Même le centrage de cette variable codée fictivement pourrait ne pas convenir à leur objectif de partage s'il y a un nombre inégal de sujets dans les deux groupes. Ai-je raison?

(2) Si l'effet d'une telle variable catégorielle est inclus dans le modèle, l'examen de ses effets semble d'abord nécessaire et doit être discuté dans le contexte en raison de ses conséquences sur l'interprétation des autres effets. Ce qui me dérange, c'est que parfois les auteurs ne mentionnent même pas l'importance de l'effet sexuel, encore moins tout processus de construction de modèle. Si l'effet sexuel existe, une question de suivi naturelle est de savoir s'il existe des interactions entre le sexe et d'autres variables dans le modèle? Si aucun effet sexuel et aucune interaction n'existent, le sexe doit être supprimé du modèle.

(3) Si le sexe est considéré comme sans intérêt pour ces auteurs, quel est l'intérêt de l'inclure dans le modèle en premier lieu sans en vérifier les effets? L'inclusion d'une telle variable catégorielle (et coûtant un degré de liberté sur l'effet fixe du sexe) gagne-t-elle quelque chose pour leur objectif de partage lorsque l'effet sexuel existe (mon expérience limitée dit essentiellement non)?

poteau bleu
la source
Que puis-je dire, tous vos points sont valables, il est donc possible que les auteurs des articles en question fassent la mauvaise chose. Sans plus de contexte, il est impossible de dire quoi que ce soit de concret.
mpiktas

Réponses:

4

Je ne pense pas que (1) fasse une différence. L'idée est de séparer de la réponse et des autres prédicteurs les effets du sexe. Peu importe que vous codiez 0, 1 (contrastes de traitement) ou 1, -1 (contrastes de somme à zéro) car les modèles représentent la même "quantité" d'informations qui est ensuite supprimée. Voici un exemple dans R:

set.seed(1)
dat <- data.frame(Size = c(rnorm(20, 180, sd = 5), 
                           rnorm(20, 170, sd = 5)),
                  Sex = gl(2,20,labels = c("Male","Female")))

options(contrasts = c("contr.treatment", "contr.poly"))
r1 <- resid(m1 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.sum", "contr.poly"))
r2 <- resid(m2 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.treatment", "contr.poly"))

À partir de ces deux modèles, les résidus sont les mêmes et c'est cette information que l'on prendrait ensuite dans le modèle suivant (plus la même chose en supprimant l'effet de sexe des autres covariables):

> all.equal(r1, r2)
[1] TRUE

Il se trouve que je suis d'accord avec (2), mais le (3) si le sexe n'est pas d'intérêt pour les chercheurs, ils pourraient toujours vouloir contrôler les effets du sexe, donc mon modèle nul serait celui qui comprend le sexe et je teste des alternatives avec des covariables supplémentaires plus le sexe. Votre point sur les interactions et le test des effets des variables non intéressantes est une observation importante et valide.

Gavin Simpson
la source
2

Il est vrai que le choix de la méthode de codage influence la façon dont vous interprétez les coefficients du modèle. D'après mon expérience cependant (et je me rends compte que cela peut dépendre de votre domaine), le codage factice est si répandu que les gens n'ont pas de gros problème à y faire face.

Dans cet exemple, si homme = 0 et femme = 1, l'ordonnée à l'origine est essentiellement la réponse moyenne pour les hommes, et le coefficient de sexe est l'impact sur la réponse due au fait d'être une femme (l '"effet féminin"). Les choses se compliquent une fois que vous avez affaire à des variables catégorielles avec plus de deux niveaux, mais le schéma d'interprétation s'étend de manière naturelle.

En fin de compte, cela signifie que vous devez veiller à ce que les conclusions de fond que vous tirez de l'analyse ne dépendent pas de la méthode de codage utilisée.

Hong Ooi
la source
1

N'oubliez pas que cette erreur sera réduite en ajoutant des facteurs supplémentaires. Même si le sexe est insignifiant dans votre modèle, il peut être utile dans l'étude. La signification peut être trouvée dans n'importe quel facteur si la taille de l'échantillon est suffisamment grande. Inversement, si la taille de l'échantillon n'est pas suffisamment grande, un effet significatif peut ne pas être testable. D'où une bonne construction de modèles et une bonne analyse de puissance.


la source
1

Il semble que je ne puisse pas ajouter un long commentaire directement à la réponse du Dr Simpson. Désolé, je dois mettre ma réponse ici.

J'apprécie vraiment votre réponse, Dr Simpson! Je devrais clarifier un peu mes arguments. Ce qui me pose problème dans le secteur du partiallisation, ce n'est pas une question théorique mais pratique. Supposons qu'un modèle de régression linéaire soit de la forme suivante

y = a + b * Sexe + autres effets fixes + résidus

Je suis totalement d'accord que, du point de vue théorique, quelle que soit la façon dont nous quantifions la variable sexe, nous aurions les mêmes résidus. Même si je code les sujets avec des nombres fous tels que masculin = 10,7 et féminin = 53,65, j'obtiendrais toujours les mêmes résidus que dans r1et r2dans votre exemple. Cependant, ce qui compte dans ces documents ne concerne pas les résidus. Au lieu de cela, l'accent est mis sur l'interprétation de l'interception aet d'autres effets fixes dans le modèle ci-dessus, ce qui peut poser problème lors de la partition. Avec un tel objectif à l'esprit, la façon dont le sexe est codé semble avoir une grande conséquence sur l'interprétation de tous les autres effets dans le modèle ci-dessus. Avec codage factice (options(contrasts = c("contr.treatment", "contr.poly"))dans R), tous les autres effets, à l'exception de «b», doivent être interprétés comme étant associés au groupe sexuel avec le code «0» (hommes). Avec le codage des effets ( options(contrasts = c("contr.sum", "contr.poly"))en R), tous les autres effets, à l'exception bdes effets moyens pour l'ensemble de la population, indépendamment du sexe.

En utilisant votre exemple, le modèle se simplifie pour

y = a + b * Sexe + résidus.

Le problème peut être clairement vu avec ce qui suit concernant l'estimation de l'interception a:

> summary(m1)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 180.9526     0.9979 181.332  < 2e-16 ***

> summary(m2)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 175.4601     0.7056 248.659  < 2e-16 ***

Enfin, il semble que je doive convenir que mon argument d'origine (3) pourrait ne pas être valide. Poursuivant votre exemple,

> options(contrasts = c("contr.sum", "contr.poly"))
> m0 <- lm(Size ~ 1, data = dat)
> summary(m0)

Call: lm(formula = Size ~ 1, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  175.460      1.122   156.4   <2e-16 ***

Il semble que l'inclusion du sexe dans le modèle ne modifie pas l'estimation de l'effet, mais cela augmente la puissance statistique car une plus grande variabilité des données est expliquée par l'effet du sexe. Mon illusion précédente dans l'argument (3) peut provenir d'un ensemble de données avec une énorme taille d'échantillon dans laquelle l'ajout de sexe dans le modèle n'a pas vraiment changé beaucoup pour la signification d'autres effets.

Cependant, dans l'analyse conventionnelle de type ANOVA équilibrée, un facteur inter-sujets tel que le sexe n'a pas de conséquence sur ces effets non liés au facteur en raison de la partition orthogonale des variances?

poteau bleu
la source
2
Peut-être avons-nous des opinions différentes sur la répartition? Dans mon esprit, cela impliquerait i) e1 <- resid (lm (y ~ Sex)), ii) e2 <- resid (lm (X ~ Sex)), et enfin iii) lm (e1 ~ e2). i) résidualise y par rapport au sexe, ii) résidualise les autres covariables (X) par rapport au sexe, iii) correspond à la régression partielle. Dans ce cas, peu importe comment on code le sexe. Dans ce qui précède, nous ne nous intéressons pas vraiment à l'effet du sexe ni à l'interprétation des coefficients. Si nous construisons un modèle, c'est-à-dire que nous contrôlons le sexe en tant que nul, alors la façon dont nous paramétrons le modèle est une considération importante, cependant.
Gavin Simpson