J'ai actuellement du mal à trouver le bon modèle pour les données de comptage difficiles (variable dépendante). J'ai essayé différents modèles (des modèles à effets mixtes sont nécessaires pour mon type de données) tels que lmer
et lme4
(avec une transformation logarithmique) ainsi que des modèles à effets mixtes linéaires généralisés avec différentes familles telles que gaussiennes ou binomiales négatives.
Cependant, je ne sais pas trop comment diagnostiquer correctement les ajustements résultants. J'ai trouvé beaucoup d'opinions différentes sur ce sujet sur le Web. Je pense que les diagnostics sur la régression linéaire (mixte) sont assez simples. Vous pouvez aller de l'avant et analyser les résidus (normalité) ainsi qu'étudier l'hétéroscédasticité en traçant des valeurs ajustées par rapport aux résidus.
Cependant, comment faites-vous correctement cela pour la version généralisée? Concentrons-nous sur une régression binomiale négative (mixte) pour l'instant. J'ai vu des déclarations assez opposées concernant les résidus ici:
Dans la vérification de la normalité des résidus dans les modèles linéaires généralisés, il est souligné dans la première réponse que les résidus simples ne sont pas normalement distribués pour un GLM; Je pense que c'est clair. Cependant, il est alors souligné que les résidus de Pearson et de déviance ne sont pas non plus censés être normaux. Pourtant, la deuxième réponse indique que les résidus de déviance devraient être normalement distribués (combinés avec une référence).
Le fait que les résidus de déviance devraient être normalement distribués est cependant indiqué dans la documentation de ? Glm.diag.plots (du
boot
package de R ).Dans cet article de blog , l'auteur a d'abord étudié la normalité de ce que je suppose être des résidus de Pearson pour un modèle de régression à effets mixtes du Nouveau-Brunswick. Comme prévu (à mon avis honnête), les résidus ne se sont pas révélés normaux et l'auteur a supposé que ce modèle ne convenait pas. Cependant, comme indiqué dans les commentaires, les résidus doivent être distribués selon une distribution binomiale négative. À mon avis, cela se rapproche le plus de la vérité car les résidus GLM peuvent avoir d'autres distributions que la normale. Est-ce correct? Comment vérifier des choses comme l'hétéroscédasticité ici?
Le dernier point (tracé des résidus par rapport aux quantiles de la distribution estimée) est souligné dans Ben & Yohai (2004) . Actuellement, cela semble être la voie à suivre pour moi.
En un mot: comment étudiez-vous correctement les ajustements de modèle des modèles de régression linéaire (mixte) généralisés spécifiquement en mettant l'accent sur les résidus?
glm.diag.plots
dit que c'est pour la déviance résiduelle jackknifed (je soupçonne que la distinction est importante). Aussi, je suppose que vous avez des données de comptage ; vous voudrez peut-être vous concentrer sur ce fait. Par exemple, les dénombrements sont supposés (dans un certain sens) être hétéroscédastiques. Les tracés de diagnostic pour la régression du comptage devraient vous être utiles (bien qu'ils ne traitent pas de l'aspect des effets mixtes).Réponses:
Cette réponse n'est pas basée sur mes connaissances mais cite plutôt ce que Bolker et al. (2009) a écrit dans un article influent de la revue Trends in Ecology and Evolution . Étant donné que l'article n'est pas en accès libre (bien que sa recherche sur Google scholar puisse s'avérer réussie, j'ai pensé citer des passages importants qui pourraient être utiles pour répondre à certaines parties des questions. Encore une fois, ce n'est pas ce que j'ai trouvé moi-même mais je pense il représente la meilleure information condensée sur les GLMM (y compris les diagnostics) dans un style d'écriture très simple et facile à comprendre. Si par quelque moyen que ce soit, cette réponse ne convient pas pour une raison quelconque, je vais simplement la supprimer. Les choses que je trouve utile en ce qui concerne les questions concernant les diagnostics sont mis en évidence dansgras .
Page 127:
Page 129, encadré 1:
Page 133, encadré 4:
Les graphiques des résidus devraient être utilisés pour évaluer la surdispersion et les variances transformées devraient être homogènes d'une catégorie à l'autre. Nulle part dans l'article n'a été mentionné que les résidus sont censés être normalement distribués.
Je pense que la raison pour laquelle il y a des déclarations contrastées reflète que les GLMM (page 127-128) ...
Et voici quelques exemples complets d'utilisation de GLMM, y compris des diagnostics.
Je me rends compte que cette réponse ressemble plus à un commentaire et doit être traitée comme telle. Mais la section des commentaires ne me permet pas d'ajouter un commentaire aussi long. De plus, étant donné que je pense que cet article est utile pour cette discussion (mais malheureusement derrière un mur de paiement), j'ai pensé qu'il serait utile de citer ici des passages importants.
Documents cités:
[15] - GP Quinn, MJ Keough (2002): Conception expérimentale et analyse des données pour les biologistes, Cambridge University Press.
[16] - MJ Crawley (2002): Calcul statistique: introduction à l'analyse des données à l'aide de S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modèles à effets mixtes en S et S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Information conditionnelle d'Akaike pour les modèles à effets mixtes. Biometrika, 92, p. 351–370.
[50] - A. Gelman, J. Hill (2006): Data Analysis Using Regression and Multilevel / Hierarchical Models, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Une introduction aux statistiques écologiques, Sinauer Associates.
[65] - FJ Harrell (2001): Stratégies de modélisation de la régression, Springer.
[66] - JK Lindsey (1997): Application de modèles linéaires généralisés, Springer.
[67] - W. Venables, BD Ripley (2002): Statistiques appliquées modernes avec S, Springer.
la source
C'est une vieille question, mais j'ai pensé qu'il serait utile d'ajouter que l'option 4 suggérée par l'OP est désormais disponible dans le package DHARMa R (disponible auprès du CRAN, voir ici ).
Le package rend les contrôles visuels résiduels suggérés par la réponse acceptée beaucoup plus fiables / faciles.
De la description du package:
la source