Je crois que le concept ß 0 est la moyenne lorsque la variable nominale est égale à 0 (ou est le groupe de référence), ce qui donne l'interprétation d'extrémité que le coefficient de régression est la différence moyenne des deux catégories. Même avec> 2 catégories Je suppose que chaque β explique la différence entre la moyenne et la référence de cette catégorie.
Mais que se passe-t-il si davantage de variables sont introduites dans le modèle multivariable? Maintenant, que signifie l'interception étant donné qu'il n'a pas de sens que ce soit la moyenne pour la référence de deux variables catégorielles? Un exemple serait si le sexe (M (réf) / F) et la race (blanc (réf) / noir) étaient tous les deux dans un modèle. Le β 0 la moyenne pour les hommes blancs seulement? Comment interprète-t-on d'autres possibilités?
En tant que note distincte: les déclarations de contraste servent-elles de méthode pour étudier la modification de l'effet? Ou juste pour voir l'effet ( β ) à différents niveaux?
la source
Réponses:
Vous avez raison sur l'interprétation des bêtas quand il y a une seule variable catégorielle aveck niveaux. S'il y avait plusieurs variables catégoriques (et il n'y avait pas d'interaction), l'interception ( β 0β^0 ) est la moyenne du groupe qui constitue le niveau de référence pour les deux (toutes) variables. En utilisant votre exemple de scénario, considérez le cas où il n'y a pas d'interaction, alors les bêtas sont:
On peut aussi penser à cela en termes de calcul des différents moyens de groupe:
X¯W h i t e M a l e s X¯W h i t e F e m a l e s X¯B l a c k M a l e s X¯B l a c k F e m a l e s = β^0= β^0+ β^F e m a l e= β^0+ β^B l a c k= β^0+ β^F e m a l e+ β^B l a c k
Si vous aviez un terme d'interaction, il serait ajouté à la fin de l'équation pour les femmes noires. (L'interprétation d'un tel terme d'interaction est assez compliquée, mais je le parcours ici: Interprétation du terme d'interaction .)
Mise à jour : pour clarifier mes points, considérons un exemple standard, codé
R
.Les moyennes de
y
pour ces variables catégorielles sont:Nous pouvons comparer les différences entre ces moyennes aux coefficients d'un modèle ajusté:
La chose à reconnaître à propos de cette situation est que, sans terme d'interaction, nous supposons des lignes parallèles. Ainsi, le
Estimate
pour le(Intercept)
est la moyenne des hommes blancs. LeEstimate
pourSexFemale
est la différence entre la moyenne des femmes et la moyenne des hommes. LeEstimate
pourRaceBlack
est la différence entre la moyenne des noirs et la moyenne des blancs. Encore une fois, comme un modèle sans terme d'interaction suppose que les effets sont strictement additifs (les lignes sont strictement parallèles), la moyenne des femelles noires est alors la moyenne des mâles blancs plus la différence entre la moyenne des femelles et la moyenne des mâles plus la différence entre la moyenne des noirs et la moyenne des blancs.la source
Si nous étendons un peu votre exemple pour inclure un troisième niveau à la catégorie de course (disons asiatique ) et choisissons le blanc comme référence, alors vous auriez:
In this case, the interpretation of all theβ^ is easy and finding the mean of any level of the category is straightforward. For example:
Unfortunately in the case of multiple categorical variables, the correct interpretation for the intercept is no longer as clear (see note at the end). When there is n categories, each with multiple levels and one reference level (e.g. White and Male in you example), the general form for the intercept is:
The otherβ^ are the same as with a single category: they are the difference between the mean of that level of the category and the mean of the reference level of the same category.
If we go back to your example, we would get:
You will notice that the mean of the cross categories (e.g. White males) are not present in any of theβ^ . As a matter of fact, you cannot calculate these means precisely from the results of this type of regression.
The reason for this is that, the number of predictor variables (i.e. theβ^ ) is smaller then the number of cross categories (as long as you have more than 1 category) so a perfect fit is not always possible. If we go back to your example, the number of predictors is 4 (i.e. β^0, β^Black, β^Asian and β^Female ) while the number of cross categories is 6.
Numerical Example
Permettez-moi d'emprunter à @Gung pour un exemple numérique en conserve:
Dans ce cas, les différentes moyennes qui iront dans le calcul de laβ^ sont:
Nous pouvons comparer ces chiffres avec les résultats de la régression:
Comme vous pouvez le voir, les différentsβ^ estimés à partir de la régression, tous correspondent aux formules données ci-dessus. Par exemple,β^0 est donné par:
Remarque sur le choix du contraste
Une dernière note sur ce sujet, tous les résultats discutés ci-dessus concernent les régressions catégoriques utilisant un traitement de contraste (le type de contraste par défaut dans R). Il existe différents types de contraste qui peuvent être utilisés (notamment Helmert et sum) et cela changerait l'interprétation des différentsβ^ . Cependant, cela ne changerait pas les prédictions finales des régressions (par exemple, la prédiction pour les hommes blancs est toujours la même quel que soit le type de contraste que vous utilisez).
Mon préféré est la somme de contraste, car j'estime que l'interprétation de laβ^c o n t r . s u m generalises better when there are multiple categories. For this type of contrast, there is no reference level, or rather the reference is the mean of the whole sample, and you have the following β^contr.sum :
If we go back to the previous example, you would have:
You will notice that because White and Male are no longer reference levels, theirβ^contr.sum are no longer 0. The fact that these are 0 is specific to contrast treatment.
la source