Pourquoi les modèles à effets mixtes résolvent-ils la dépendance?

14

Imaginons que nous nous intéressions à la façon dont les notes des étudiants sont affectées par le nombre d'heures que ces étudiants étudient. Pour explorer cette relation, nous pourrions exécuter la régression linéaire suivante:

exam.gradesi=a+β1×hours.studiedi+ei

Mais si nous échantillonnons des élèves de plusieurs écoles différentes, nous pourrions nous attendre à ce que les élèves d'une même école se ressemblent davantage que les élèves de différentes écoles. Pour faire face à ce problème de dépendance, le conseil dans de nombreux manuels / sur le Web, est d'exécuter des effets mixtes et d'entrer à l'école comme un effet aléatoire. Ainsi, le modèle deviendrait: Mais pourquoi cela résout-il le problème de dépendance qui était présent dans la régression linéaire?

exam.gradesi=a+β1×hours.studiedi+schoolj+ei

Veuillez répondre comme si vous parliez à un enfant de 12 ans

luciano
la source
Qu'il «résout» le problème de dépendance est spécifique au contexte. Mais vous pouvez probablement voir que maintenant le modèle étendu a un terme qui peut, au moins partiellement, expliquer un effet lié à une école particulière.
image_doctor

Réponses:

23

L'inclusion de termes aléatoires dans le modèle est un moyen d'induire une structure de covariance entre les notes. Le facteur aléatoire pour l'école induit une covariance non nul entre les différents élèves de la même école, alors qu'il est quand l'école sont différents.0

Écrivons votre modèle comme s indexe l'école et i indexe les élèves (dans chaque école). Les termes écoles s sont des variables aléatoires indépendantes dessinées dans un N ( 0 , τ ) . Les e s , i sont des variables aléatoires indépendantes dessinées dans un N ( 0 , σ

Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)es,i .N(0,σ2)

Ce vecteur a une valeur attendue qui est déterminée par le nombre d'heures travaillées.

[α+hourss,iβ]s,i

La covariance entre et Y s , i est 0 lorsque sYs,iYs,i0 , ce qui signifie que l'écart des notes par rapport aux valeurs attendues est indépendant lorsque les élèves ne sont pas dans la même école.ss

La covariance entre et Y s , iYs,i estτlorsqueii, et la variance deY s , i estτYs,iτiiYs,i : les notes des élèves d'une même école auront des écarts corrélés par rapport à leurs valeurs attendues .τ+σ2

Exemple et données simulées

Voici une courte simulation R pour cinquante élèves de cinq écoles (ici je prends ); les noms de la variable sont auto-documentés: σ2=τ=1

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

schools+es,i

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

modèle mixte

schoolsα+hoursβ

La matrice de variance pour cet exemple

schoolses,i

[A00000A00000A00000A00000A]
10×10A
A=[2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112].
Elvis
la source
1
Elvis: c'est probablement une excellente réponse pour les gens plus versés en statistiques que moi. Cependant, je peux en tirer peu de sens. Pourriez-vous modifier votre réponse de manière à ce qu'un enfant de 12 ans puisse comprendre?
luciano
1
A ... 12 ans?! Hou la la! J'ajouterai quelques simulations, si cela peut aider.
Elvis
5
Terminé. J'espère que cela t'aides. Sinon, veuillez être plus précis sur ce que vous n'obtenez pas. Notez qu'un 12 ans ne comprendrait pas la question non plus ... vous ne pouvez pas demander une réponse plus simple que la question.
Elvis