Différence entre les modèles linéaires généralisés et les modèles mixtes linéaires généralisés

34

Je me demande quelles sont les différences entre les GLM mixtes et non mélangées. Par exemple, dans SPSS, le menu déroulant permet aux utilisateurs d’inscrire:

  • analyze-> generalized linear models-> generalized linear models Et
  • analyze-> mixed models-> generalized linear

Traitent-ils différemment les valeurs manquantes?

Ma variable dépendante est binaire et j'ai plusieurs variables indépendantes catégorielles et continues.

utilisateur9203
la source

Réponses:

62

L'avènement des modèles linéaires généralisés nous a permis de construire des modèles de données de type régression lorsque la distribution de la variable de réponse est non normale, par exemple lorsque votre DV est binaire. (Si vous souhaitez en savoir un peu plus sur GLiMs, j’ai écrit ici une réponse assez détaillée , qui peut être utile bien que le contexte soit différent.) Cependant, un GLiM, par exemple un modèle de régression logistique, suppose que vos données sont indépendantes . Par exemple, imaginons une étude qui examine si un enfant a développé un asthme. Chaque enfant contribue unpoint de données à l'étude - ils ont l'asthme ou ils n'ont pas. Parfois, les données ne sont pas indépendantes, cependant. Prenons une autre étude qui examine si un enfant est enrhumé à différents moments de l’année scolaire. Dans ce cas, chaque enfant contribue de nombreux points de données. À un moment donné, un enfant pourrait attraper un rhume, plus tard, il se pourrait que non, et encore plus tard, il se peut qu'un autre soit enrhumé. Ces données ne sont pas indépendantes car elles proviennent du même enfant. Pour analyser correctement ces données, nous devons en quelque sorte prendre en compte cette non-indépendance. Il y a deux façons: l'une consiste à utiliser les équations d'estimation généralisées (que vous ne mentionnez pas, nous allons donc sauter). L’autre méthode consiste à utiliser un modèle mixte linéaire généralisé. Les GLiMM peuvent expliquer cette non-indépendance en ajoutant des effets aléatoires (comme le note @ MichaelChernick). Par conséquent, la réponse est que votre deuxième option concerne des données de mesures répétées non normales (ou sinon des données non indépendantes). (Je dois mentionner, conformément au commentaire de @ Macro, que les modèles mixtes linéaires généralisés incluent les modèles linéaires en tant que cas particulier et peuvent donc être utilisés avec des données distribuées normalement. Cependant, le terme désigne généralement des données non normales.)

Mise à jour: (Le PO a également posé une question sur GEE. J'écrirai donc un peu sur la relation entre les trois.)

Voici un aperçu de base:

  • un GLiM typique (je vais utiliser la régression logistique comme cas prototype) vous permet de modéliser une réponse binaire indépendante en fonction de covariables
  • un GLMM vous permet de modéliser une réponse binaire non indépendante (ou en cluster) en fonction des attributs de chaque cluster en tant que fonction de covariables
  • le GEE vous permet de modéliser la réponse moyenne de la population de données binaires non indépendantes en fonction de covariables

Étant donné que vous avez plusieurs essais par participant, vos données ne sont pas indépendantes. comme vous le constatez à juste titre, "[l] es comparaisons au sein d'un participant risquent d'être plus similaires que par rapport à l'ensemble du groupe". Par conséquent, vous devez utiliser un GLMM ou le GEE.

La question, alors, est de savoir comment choisir si GLMM ou GEE conviendrait mieux à votre situation. La réponse à cette question dépend du sujet de votre recherche - en particulier de la cible des inférences que vous souhaitez faire. Comme je l'ai indiqué ci-dessus, avec un GLMM, les bêtas vous expliquent l'effet d'un changement d'une unité de vos covariables sur un participant particulier, compte tenu de leurs caractéristiques individuelles. En revanche, avec le GEE, les bêtas vous expliquent l’effet d’un changement d’une unité dans vos covariables sur la moyenne des réponses de toute la population en question. Il est difficile de saisir cette distinction, en particulier parce qu’il n’existe aucune distinction de ce type avec les modèles linéaires (dans ce cas, les deux sont la même chose).

logit(pi)=β0+β1X1+bi
logit(p)=ln(p1p),     &      bN(0,σb2)
p β0(β0+bi)biβ0β1pilogitentrez la description de l'image ici
β1--le même pour chaque élève (c’est-à-dire qu’il n’ya pas de pente aléatoire). Notez cependant que les compétences de base des élèves diffèrent entre eux - probablement en raison de différences telles que le QI (c’est-à-dire qu’il ya une interception aléatoire). La probabilité moyenne pour la classe dans son ensemble, cependant, suit un profil différent de celui des étudiants. Le résultat étonnamment contre-intuitif est le suivant: une heure d’enseignement supplémentaire peut avoir un effet considérable sur la probabilité que chaque élève réussisse le test, mais assez peu sur la proportion totale probable d’élèves ayant réussi le test . En effet, certains élèves ont peut-être déjà beaucoup de chances de réussir tandis que d'autres peuvent encore avoir peu de chance.

La question de savoir si vous devez utiliser un GLMM ou le GEE est la question de savoir laquelle de ces fonctions vous souhaitez estimer. Si vous vouliez savoir sur la probabilité d'un décès étudiant donné (si, par exemple, vous étiez l'étudiant ou le parent de l'étudiant), vous souhaitez utiliser un GLMM. D'autre part, si vous voulez connaître l'effet sur la population (si, par exemple, vous étiez l' enseignant ou le principal), vous voudriez utiliser le GEE.

Pour une autre discussion de ce matériau, plus détaillée sur le plan mathématique, voir cette réponse de @Macro.

gung - Rétablir Monica
la source
2
C'est une bonne réponse, mais je pense que cela, surtout la dernière phrase, semble presque indiquer que vous n'utilisez des GLM ou des GLMM que pour des données non normales, ce qui n'était probablement pas l'intention, car les modèles linéaires gaussiens ordinaires (mixtes) relèvent également de la catégorie GL (M) M.
Macro
@ Macro, tu as raison, je l'oublie toujours. J'ai édité la réponse pour clarifier ceci. Faites-moi savoir si vous pensez qu'il en faut plus.
gung - Réintégrer Monica
J'ai également vérifié les équations d'estimation généralisées. Est-il exact que, comme avec GLiM, GEE suppose que mes données sont indépendantes? J'ai plusieurs essais par participant. Les essais menés sur un participant sont probablement plus similaires que ceux du groupe entier.
user9203
@gung, Bien que GEE puisse produire des coefficients "moyennés sur la population", si je voulais estimer l'effet moyen du traitement (ATE) sur l'échelle de probabilité de la population réelle, pour un régresseur binaire d'intérêt, ne devrais-je pas prendre une approche par sujet? À ma connaissance, la méthode de calcul de l'ATE consiste à estimer la probabilité prédite pour chaque personne avec et sans traitement, puis à faire la moyenne de ces différences. Cela ne nécessite-t-il pas une méthode de régression capable de générer des probabilités prédites pour chaque personne (en dépit du fait qu'elles sont ensuite moyennées)?
Yakkanomica
1
@ Yakkanomica, si c'est ce que vous voulez, bien sûr.
gung - Rétablir Monica
6

La clé est l'introduction d'effets aléatoires. Le lien de Gung le mentionne. Mais je pense que cela aurait dû être mentionné directement. C'est la principale différence.

Michael R. Chernick
la source
+1, tu as raison. J'aurais dû être plus clair à ce sujet. J'ai édité ma réponse pour inclure ce point.
gung - Réintégrer Monica
Chaque fois que j'ajoute un effet aléatoire, tel qu'une interception aléatoire, au modèle, je reçois un message d'erreur. Je pense que je n'ai pas assez de points de données pour ajouter des effets aléatoires. Cela pourrait-il être le cas? message d'erreur: glmm: La matrice de Hessian finale n'est pas définie positive bien que tous les critères de convergence soient satisfaits. La procédure continue malgré cet avertissement. Les résultats ultérieurs sont basés sur la dernière itération. La validité de l'ajustement du modèle est incertaine.
user9203
3

Je vous suggère également d'examiner les réponses à une question que j'ai posée il y a quelque temps:

Modèle linéaire général et modèle linéaire généralisé (avec une fonction de lien d'identité?)

Behacad
la source
5
Je ne pense pas que cela réponde vraiment à la question, qui concerne les capacités de SPSS pour exécuter des modèles GLM et à effets mixtes, et la manière dont il traite les valeurs manquantes. Était-ce plutôt un commentaire? Sinon, veuillez clarifier.
chl
Désolé, le message d'ouverture semblait avoir deux "questions". 1. Je me demande quoi .... et 2. Traitent-ils différemment les valeurs manquantes? J'essayais de répondre à la première question.
Behacad
1
C'est suffisant. Sans plus d'explications, je pense toujours que cela conviendrait mieux comme commentaire au PO.
chl