Partitionnement de la variance et changements longitudinaux de corrélation avec les données binaires

14

J'analyse des données sur 300 000 élèves dans 175 écoles avec un modèle logistique linéaire à effets mixtes (interceptions aléatoires). Chaque élève se produit exactement une fois et les données s'étalent sur 6 ans.

  1. Comment répartir la variance entre les niveaux de l'école et des élèves, d'une manière similaire au VPC / ICC pour des résultats continus? J'ai vu cet article qui propose 4 méthodes, dont A et B me semblent intéressantes, mais je voudrais savoir quels avantages / inconvénients il pourrait y avoir à utiliser l'une ou l'autre, et bien sûr s'il y a d'autres façons de le faire il.

  2. Comment puis-je comparer la variance résiduelle au niveau de l'école d'une année à l'autre (ou toute autre période)? Jusqu'à présent, j'ai fait cela en divisant les données par année et en exécutant le modèle par rapport à chaque année de données, mais je pense que cela est défectueux car: i) il n'y a aucune raison évidente pour laquelle je devrais être divisé par année ; et ii) étant donné que les estimations des effets fixes sont différentes pour chaque année, la comparaison des effets aléatoires d'une année à l'autre peut ne pas avoir de sens (c'est juste mon intuition, ce serait bien si quelqu'un pouvait expliquer cela plus formellement, si c'est correct).

REMARQUE: j'ai réécrit cette question après une discussion en méta avec whuber et Macro

Joe King
la source
3
Je pense que c'est une amélioration majeure. La question est maintenant très claire. Pour l'instant, je n'ai pas le temps de donner une réponse bien organisée, mais je posterai une réponse plus tard.
Macro
3
Les modèles logistiques à effets mixtes semblent être un sujet extrêmement avancé pour le lycée. Font-ils partie de votre programme d'études secondaires ou étudiez-vous indépendamment?
mark999
4
@ mark999 J'étudie indépendamment. En fait, j'essaie de prouver que mon frère a tort en disant "il n'y a aucun moyen que vous puissiez comprendre cela" . Il fait un diplôme en statistique donc j'ai accès à tous ses livres etc. (quand il est gentil).
Joe King

Réponses:

15

Soit la réponse et le vecteur prédictif (respectivement) de l'élève i à l'école j .yjej,Xjejjej

(1) Pour les données binaires, je pense que la façon standard de faire des décompositions de variance analogues à celles faites pour les données continues est ce que les auteurs appellent la méthode D (je commenterai les autres méthodes ci-dessous) dans votre lien - imaginer les données binaires comme résultant d'une variable continue sous-jacente régie par un modèle linéaire et décomposant la variance à cette échelle latente. La raison en est que les modèles logistiques (et autres GLM) se posent naturellement de cette façon ...

Pour voir cela, définissez yjej telle sorte qu'il soit régi par un modèle mixte linéaire:

yjej=α+Xjejβ+ηj+εjej

sont des coefficients de régression, η jN ( 0 , σ 2 ) est l'effet aléatoire au niveau de l'école et ε i j est le terme de variance résiduelle et a une distribution logistique standard . Maintenant, laisseα,βηjN(0,σ2)εjej

yjej={1si   yjej00si   yjej<0

Soit maintenant, en utilisant simplement le CDF logistique que nous avonspjej=P(yjej=1|Xjej,ηj)

pij=1P(yij<0|xij,ηj)=exp{-(α+Xjejβ+ηj)}1+exp{-(α+Xjejβ+ηj)}

prenant maintenant la transformation logit des deux côtés, vous avez

Journal(pjej1-pjej)=α+Xjejβ+ηj

qui est exactement le modèle logistique des effets mixtes. Ainsi, le modèle logistique est équivalent au modèle de variable latente spécifié ci-dessus. Une remarque importante:

  • L'échelle de n'est pas identifiée car, si vous la réduisiez mais une constante s , cela changerait simplement ce qui précède enεjejs

exp{(α+Xijβ+ηj)/s}1+exp{-(α+Xjejβ+ηj)/s}

       
      s=1vuner(εjej)=π2/3

Maintenant, si vous utilisez ce modèle et la quantité

σ^η2σ^η2+π2/3

estime la corrélation intraclasse des variables latentes sous - jacentes . Une autre note importante:

  • εjej
    σ^η2σ^η2+1

Concernant les autres méthodes mentionnées dans l'article que vous avez lié:

  • Xjej

  • (B) La méthode de simulation fait intuitivement appel à un statisticien car elle vous donnerait une décomposition de la variance estimée sur l'échelle d'origine des données mais, selon le public, il peut (i) être compliqué de décrire cela dans vos "méthodes" et (ii) peut désactiver un examinateur qui recherchait quelque chose de "plus standard"

  • (C) Prétendre que les données sont continues n'est probablement pas une bonne idée, bien que cela ne fonctionnera pas terriblement si la plupart des probabilités ne sont pas trop proches de 0 ou 1. Mais, cela ferait presque certainement lever le drapeau rouge à un examinateur donc je resterais loin.

Maintenant enfin,

(2) Si les effets fixes sont très différents d'une année à l'autre, alors vous avez raison de penser qu'il pourrait être difficile de comparer les variances des effets aléatoires d'une année à l'autre, car elles sont potentiellement à différentes échelles (cela est lié à la non-identifiabilité problème de mise à l'échelle mentionné ci-dessus).

jek=1k

α+Xjejβ+η1jje1+η2jje2+η3jje3+η4jje4+η5jje5+η6jje6

cela vous donnera un ICC différent chaque année mais les mêmes effets fixes. Il peut être tentant d'utiliser simplement une pente aléatoire dans le temps, ce qui rend votre prédicteur linéaire

α+Xjejβ+η1+η2t

mais je ne le recommande pas, car cela permettra uniquement à vos associations d' augmenter au fil du temps, pas de diminuer .

Macro
la source
Veuillez me donner votre commentaire pour aborder le point dans l'article lié à propos de cette technique de partitionnement de la variance qui dit "Cette approche peut être raisonnable lorsque la réponse (0, 1) est, disons, dérivée d'une troncature d'un continuum sous-jacent tel que une réponse positive / négative basée sur une échelle de notes continue, mais semble avoir moins de justification lorsque la réponse est vraiment discrète, comme la mortalité ou le vote " . Dans mon cas, je traite de l'incidence de l'intimidation, qui tombe dans cette dernière catégorie, je pense ...
Joe King
@JoeKing, je dirais que les modèles de régression logistique / probit (et similaire) supposent déjà que les données sont générées à partir d'un continuum sous-jacent, car le modèle peut être démontré comme équivalent à cela. Par conséquent, si l'on utilise même de tels modèles, ils doivent trouver cette hypothèse défendable :)
Macro
1
@JoeKing, si vous considérez cette réponse comme définitive, pensez à accepter :)
Macro
Je le ferai en effet. En ce moment, je suis un peu incertain sur quelques points et j'aimerais revenir sur vous après avoir eu un peu de temps (quelques jours) pour lire un peu et regarder les données un peu plus, si cela ne vous dérange pas?
Joe King
@JoeKing Bien sûr - certains nouveaux membres ne le savent pas, alors j'ai pensé le souligner - cela ne visait pas du tout à vous mettre la pression
Macro