Interpréter les tracés de diagnostic résiduels pour les modèles glm?

33

Je cherche des directives sur la manière d’interpréter les graphes résiduels de modèles GLM. Surtout poisson, modèle binomial négatif, binomial. Que pouvons-nous attendre de ces parcelles lorsque les modèles sont "corrects"? (par exemple, nous nous attendons à ce que la variance augmente à mesure que la valeur prédite augmente, dans le cas d'un modèle de Poisson)

Je sais que les réponses dépendent des modèles. Toute référence (ou points généraux à prendre en compte) sera utile / appréciée.

Tal Galili
la source

Réponses:

16

Je pense que c'est l'une des parties les plus difficiles lors d'une analyse de régression. J'ai également du mal avec la plupart des interprétations (en particulier, les diagnostics binomiaux sont fous!).

Je viens de tomber sur ce post http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ qui a également mis en lien http://statmaster.sdu.dk/courses/st111/module04/index.html SECTION00020000000000000000

ce qui m'aide le plus, c'est de tracer les résidus par rapport à tous les paramètres prédictifs inclus ET non inclus dans le modèle. Cela signifie également ceux qui ont été abandonnés auparavant pour des raisons de multicolinéarité. Pour ces boîtes à moustaches, les diagrammes de dispersion conditionnels et les diagrammes de dispersion normaux sont excellents. cela aide à repérer les erreurs possibles

Dans "Forest Analytics with R" (série UseR), vous trouverez de bonnes explications sur la manière d’interpréter les résidus pour les modèles à effets mixtes (et également pour glms). Bonne lecture! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

Il y a un jour, j'ai pensé à un site Web qui pourrait collecter des schémas résiduels que les utilisateurs peuvent voter pour être «ok» et pour être «pas ok». mais je n'ai jamais trouvé ce site;)

Jens
la source
8

Je suggérerais les méthodes décrites dans:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Il y a quelques idées différentes, mais elles consistent principalement à simuler des données pour lesquelles vous savez quelle est la véritable relation et que cette relation est basée sur votre analyse des données réelles. Ensuite, vous comparez les diagnostics de vos données réelles aux diagnostics des jeux de données simulés. La vis.testfonction du package TeachingDemos pour R implémente une variation de l'une des suggestions présentées dans l'article. Lire le document entier (pas seulement mon résumé très court) pour une meilleure compréhension.

Greg Snow
la source
Je pense que c’est une bonne suggestion de voir des modèles qui s’écartent de manière aléatoire dans des parcelles de dispersion ou d’autres graphiques, mais ce n’est pas le seul objectif de la visualisation des résidus. Nous nous intéressons souvent à des écarts particuliers par rapport à l’aléatoire (p. Ex. Hétérocédasticité, non-linéarité mal spécifiée dans le modèle, variables omises, valeurs aberrantes ou à fort effet de levier, etc.). Les comparaisons avec des données générées aléatoirement ne permettent pas vraiment d'identifier les raisons pour lesquelles les résidus ne sont pas aléatoires ni le remède.
Andy W
@AndyW, je pense que nous interprétons la question initiale différemment. Pour commencer, le chercheur commence par leur faire savoir s’il ya quelque chose de plus qu’ils doivent rechercher ou si le tracé résiduel est raisonnable. Que faire si cela ne semble pas raisonnable est alors la prochaine étape et au-delà de ma réponse (bien que certaines hypothèses supplémentaires puissent être comparées à l’aide d’un nouvel ensemble de simulations).
Greg Snow
5

Cette question est assez ancienne, mais j’ai pensé qu’il serait utile d’ajouter que, depuis récemment, vous pouvez utiliser le package DHARMa R pour transformer les résidus de n’importe quel GL (M) M en un espace normalisé. Une fois que cela est fait, vous pouvez évaluer / tester visuellement les problèmes résiduels tels que les écarts par rapport à la distribution, la dépendance résiduelle à un prédicteur, l'hétéroscédasticité ou l'autocorrélation de manière normale. Voir la vignette du paquet pour des exemples élaborés, ainsi que d'autres questions sur le CV ici et ici .

Florian Hartig
la source