Les effets de groupe dans un modèle à effets mixtes sont-ils supposés avoir été choisis dans une distribution normale?

8

Imaginons que nous nous intéressions à la façon dont les notes des étudiants sont affectées par le nombre d'heures que ces étudiants étudient. Nous échantillonnons des étudiants de plusieurs écoles différentes. Nous exécutons le modèle d'effets mixtes suivant:

exam.gradesje=une+β1×heures.étudiéje+écolej+eje

Ai-je raison de dire que, dans ce modèle, chaque école est supposée avoir été choisie parmi une plus grande population d'écoles, et que l'effet de l'école est normalement distribué? Par conséquent, pouvons-nous faire toutes les procédures de distribution normales «habituelles» pour l'effet de groupe de l'école? Pouvons-nous dire que des choses comme 68% des écoles seront à moins d'un écart-type de l'effet de groupe moyen de l'école? Et pouvons-nous calculer un intervalle de confiance de 95% pour l'effet de groupe moyen global de l'école?

Ai-je également raison de dire que la régression linéaire avec effet fixe de l'école ne peut pas calculer ces statistiques de distribution normale car elles utilisent un groupe de référence et des variables muettes?

luciano
la source

Réponses:

7

Vous avez raison de dire que dans les modèles standard à effets mixtes linéaires, les effets aléatoires sont supposés être normalement distribués. Ainsi, si cette hypothèse se vérifie (au moins approximativement), nous pouvons utiliser ce que nous savons des distributions normales pour aider à décrire la distribution des effets aléatoires, comme 95% des effets aléatoires devraient être dans les deux écarts-types de 0 (puisque aléatoire les effets sont centrés autour de 0).

Cela dit, il est important de vérifier ces hypothèses, et ce n'est pas toujours aussi simple! Si vous avez beaucoup de données sur chaque cluster, vous pouvez faire quelque chose comme une analyse stratifiée et tracer les intervalles de confiance pour chaque cluster. Cela peut encore être un peu difficile; supposons que vous ayez une valeur aberrante extrême, c'est-à-dire un intervalle de confiance étroit à plusieurs écarts-types de 0. Est-ce parce que cet effet aléatoire est vraiment énorme et nous en sommes très certains? Ou est-ce parce que nous n'avons pas beaucoup de données sur cet effet aléatoire et que nous avons sous-estimé la variance due à la petite taille de l'échantillon?

Quant à la différence entre la régression linéaire simple et les modèles à effets mixtes, la réponse est que le modèle à effets mixtes est considérablement plus compliqué. On suppose que les effets aléatoires ont tous été générés à partir de la même distribution (généralement normale). En tant que tel, l'estimation d'un effet aléatoire est en fait tirée vers 0 (rappelez-vous que les effets aléatoires sont centrés sur 0) comparé si vous veniez d'ajuster un modèle de régression linéaire simple avec tous les effets fixes.

En outre, une autre différence est que les effets aléatoires sont fixés pour avoir une moyenne de 0, permettant une identifiabilité complète du modèle: si vous tentiez d'ajuster l'effet principal ET tous les effets aléatoires dans un modèle linéaire simple, votre modèle ne serait pas identifiable. En effet, l'ajout de 1 à l'effet principal et la soustraction de 1 des effets "aléatoires" (guillemets utilisés car vous les ajusteriez comme des effets fixes) conduiraient exactement aux mêmes valeurs prédites. Cette question n'est cependant pas si importante: on pourrait facilement exclure simplement l'effet principal du modèle, puis si nous étions intéressés à examiner l'effet principal, nous prendrions simplement la moyenne de tous les effets "aléatoires". Cependant, comme indiqué ci-dessus, les effets «aléatoires» estimés seraient beaucoup plus bruyants que s'ils avaient été ajustés par un modèle à effets mixtes: sur les informations de ce cluster, plutôt que d'emprunter également les informations fournies sur la distribution des effets de cluster.

Cliff AB
la source