J'analyse des données sur 300 000 élèves dans 175 écoles avec un modèle logistique linéaire à effets mixtes (interceptions aléatoires). Chaque élève se produit exactement une fois et les données s'étalent sur 6 ans.
Comment répartir la variance entre les niveaux de l'école et des élèves, d'une manière similaire au VPC / ICC pour des résultats continus? J'ai vu cet article qui propose 4 méthodes, dont A et B me semblent intéressantes, mais je voudrais savoir quels avantages / inconvénients il pourrait y avoir à utiliser l'une ou l'autre, et bien sûr s'il y a d'autres façons de le faire il.
Comment puis-je comparer la variance résiduelle au niveau de l'école d'une année à l'autre (ou toute autre période)? Jusqu'à présent, j'ai fait cela en divisant les données par année et en exécutant le modèle par rapport à chaque année de données, mais je pense que cela est défectueux car: i) il n'y a aucune raison évidente pour laquelle je devrais être divisé par année ; et ii) étant donné que les estimations des effets fixes sont différentes pour chaque année, la comparaison des effets aléatoires d'une année à l'autre peut ne pas avoir de sens (c'est juste mon intuition, ce serait bien si quelqu'un pouvait expliquer cela plus formellement, si c'est correct).
REMARQUE: j'ai réécrit cette question après une discussion en méta avec whuber et Macro
la source
Réponses:
Soit la réponse et le vecteur prédictif (respectivement) de l'élève i à l'école j .yij,xij i j
(1) Pour les données binaires, je pense que la façon standard de faire des décompositions de variance analogues à celles faites pour les données continues est ce que les auteurs appellent la méthode D (je commenterai les autres méthodes ci-dessous) dans votre lien - imaginer les données binaires comme résultant d'une variable continue sous-jacente régie par un modèle linéaire et décomposant la variance à cette échelle latente. La raison en est que les modèles logistiques (et autres GLM) se posent naturellement de cette façon ...
Pour voir cela, définissezy⋆je j telle sorte qu'il soit régi par un modèle mixte linéaire:
où sont des coefficients de régression, η j ∼ N ( 0 , σ 2 ) est l'effet aléatoire au niveau de l'école et ε i j est le terme de variance résiduelle et a une distribution logistique standard . Maintenant, laisseα , β ηj∼ N( 0 , σ2) εje j
Soit maintenant, en utilisant simplement le CDF logistique que nous avonspje j= P( yje j= 1 | Xje j, ηj)
prenant maintenant la transformation logit des deux côtés, vous avez
qui est exactement le modèle logistique des effets mixtes. Ainsi, le modèle logistique est équivalent au modèle de variable latente spécifié ci-dessus. Une remarque importante:
Maintenant, si vous utilisez ce modèle et la quantité
estime la corrélation intraclasse des variables latentes sous - jacentes . Une autre note importante:
Concernant les autres méthodes mentionnées dans l'article que vous avez lié:
(B) La méthode de simulation fait intuitivement appel à un statisticien car elle vous donnerait une décomposition de la variance estimée sur l'échelle d'origine des données mais, selon le public, il peut (i) être compliqué de décrire cela dans vos "méthodes" et (ii) peut désactiver un examinateur qui recherchait quelque chose de "plus standard"
(C) Prétendre que les données sont continues n'est probablement pas une bonne idée, bien que cela ne fonctionnera pas terriblement si la plupart des probabilités ne sont pas trop proches de 0 ou 1. Mais, cela ferait presque certainement lever le drapeau rouge à un examinateur donc je resterais loin.
Maintenant enfin,
(2) Si les effets fixes sont très différents d'une année à l'autre, alors vous avez raison de penser qu'il pourrait être difficile de comparer les variances des effets aléatoires d'une année à l'autre, car elles sont potentiellement à différentes échelles (cela est lié à la non-identifiabilité problème de mise à l'échelle mentionné ci-dessus).
cela vous donnera un ICC différent chaque année mais les mêmes effets fixes. Il peut être tentant d'utiliser simplement une pente aléatoire dans le temps, ce qui rend votre prédicteur linéaire
mais je ne le recommande pas, car cela permettra uniquement à vos associations d' augmenter au fil du temps, pas de diminuer .
la source