Quelqu'un peut-il me dire comment interpréter les graphiques «résidus vs ajustés», «q-q normal», «emplacement-échelle» et «résidus vs effet de levier»? Je pose un GLM binomial, l'enregistre puis le trace.
30
Quelqu'un peut-il me dire comment interpréter les graphiques «résidus vs ajustés», «q-q normal», «emplacement-échelle» et «résidus vs effet de levier»? Je pose un GLM binomial, l'enregistre puis le trace.
Réponses:
R
n'a pas deplot.glm()
méthode distincte . Lorsque vous ajustezglm()
et exécutez un modèleplot()
, il appelle ? Plot.lm , qui convient aux modèles linéaires (c'est-à-dire avec un terme d'erreur normalement distribué).En général, la signification de ces tracés (au moins pour les modèles linéaires) peut être apprise dans divers threads existants sur CV (par exemple: Résidus vs ajustés ; qq-tracés à plusieurs endroits: 1 , 2 , 3 ; Scale-Location ; Residuals vs effet de levier ). Cependant, ces interprétations ne sont généralement pas valables lorsque le modèle en question est une régression logistique.
Plus précisément, les parcelles auront souvent un aspect drôle et amèneront les gens à croire qu'il y a quelque chose qui ne va pas avec le modèle quand il est parfaitement bien. Nous pouvons le voir en regardant ces graphiques avec quelques simulations simples où nous savons que le modèle est correct:
Voyons maintenant les tracés que nous obtenons
plot.lm()
:Le graphique
Residuals vs Fitted
et lesScale-Location
graphiques semblent avoir des problèmes avec le modèle, mais nous savons qu'il n'y en a pas. Ces graphiques, destinés aux modèles linéaires, sont tout simplement souvent trompeurs lorsqu'ils sont utilisés avec un modèle de régression logistique.Regardons un autre exemple:
Maintenant, tous les complots semblent étranges.
Alors, que vous montrent ces intrigues?
Residuals vs Fitted
intrigue peut vous aider à voir, par exemple, s'il y a des tendances curvilignes que vous avez manquées. Mais l'ajustement d'une régression logistique est curviligne par nature, vous pouvez donc avoir des tendances étranges dans les résidus sans rien de mal.Normal Q-Q
tracé vous aide à détecter si vos résidus sont normalement distribués. Mais les résidus de déviance ne doivent pas être normalement distribués pour que le modèle soit valide, donc la normalité / non-normalité des résidus ne vous dit pas nécessairement quoi que ce soit.Scale-Location
intrigue peut vous aider à identifier l'hétéroscédasticité. Mais les modèles de régression logistique sont à peu près hétéroscédastiques par nature.Residuals vs Leverage
peut vous aider à identifier d'éventuelles valeurs aberrantes. Mais les valeurs aberrantes dans la régression logistique ne se manifestent pas nécessairement de la même manière que dans la régression linéaire, donc ce graphique peut ou non être utile pour les identifier.La leçon simple à retenir ici est que ces graphiques peuvent être très difficiles à utiliser pour vous aider à comprendre ce qui se passe avec votre modèle de régression logistique. Il est probablement préférable que les gens ne regardent pas du tout ces parcelles lors de la régression logistique, sauf s'ils ont une expertise considérable.
la source
En savoir plus sur les hypothèses de régression, car à bien des égards, il existe des similitudes (par exemple ici , ou tutoriel sur la régression dans R ici ).
la source