À la page 232 de "Un compagnon R pour la régression appliquée" Fox et Weisberg note
Seule la famille gaussienne a une variance constante, et dans tous les autres GLM, la variance conditionnelle de y à dépend de μ ( x )
Plus tôt, ils notent que la variance conditionnelle du Poisson est et celle du binôme est .μ ( 1 - μ )
Pour le gaussien, il s'agit d'une hypothèse familière et souvent vérifiée (homoscédasticité). De même, je vois souvent la variance conditionnelle du Poisson discutée comme une hypothèse de régression de Poisson, ainsi que des remèdes pour les cas où il est violé (par exemple binôme négatif, zéro gonflé, etc.). Pourtant, je ne vois jamais la variance conditionnelle pour le binôme discuté comme une hypothèse de régression logistique. Un petit googling n'en a trouvé aucune mention.
Qu'est-ce que j'oublie ici?
EDIT après le commentaire de @whuber:
Comme suggéré, je regarde Hosmer & Lemeshow. C'est intéressant et je pense que cela montre pourquoi je (et peut-être d'autres) suis confus. Par exemple, le mot "hypothèse" ne figure pas dans l'index du livre. De plus, nous avons ceci (p. 175)
Dans la régression logistique, nous devons nous appuyer principalement sur l'évaluation visuelle, car la distribution des diagnostics sous l'hypothèse que le modèle s'adapte n'est connue que dans certains contextes limités
Ils montrent pas mal de graphiques, mais se concentrent sur des diagrammes de dispersion de divers résidus par rapport à la probabilité estimée. Ces tracés (même pour un bon modèle, n'ont pas le motif "blobby" caractéristique des tracés similaires dans la régression OLS, et sont donc plus difficiles à juger. De plus, ils ne montrent rien de semblable aux tracés quantiles.
Dans R, plot.lm propose un bel ensemble par défaut de tracés pour évaluer les modèles; Je ne connais pas d'équivalent pour la régression logistique, bien qu'il puisse être dans un paquet. Cela peut être dû au fait que des tracés différents seraient nécessaires pour chaque type de modèle. SAS propose des parcelles dans PROC LOGISTIC.
Cela semble certainement être un domaine de confusion potentielle!
la source
Réponses:
Le package DHARMa R résout ce problème en simulant à partir du modèle ajusté pour transformer les résidus de tout GL (M) M en un espace normalisé. Une fois cela fait, toutes les méthodes régulières pour évaluer visuellement et formellement les problèmes résiduels (par exemple les parcelles qq, la surdispersion, l'hétéroskédasticité, l'autocorrélation) peuvent être appliquées. Voir la vignette du package pour des exemples élaborés.
Concernant le commentaire de @Otto_K: si la surdispersion homogène est le seul problème, il est probablement plus simple d'utiliser un effet aléatoire de niveau observationnel, qui peut être implémenté avec un GLMM binomial standard. Cependant, je pense que @PeterFlom était également préoccupé par l'hétéroscédasticité, c'est-à-dire un changement du paramètre de dispersion avec certaines prédictions ou prédictions de modèle. Cela ne sera pas détecté / corrigé par les contrôles / corrections de surdispersion standard, mais vous pouvez le voir dans les tracés résiduels DHARMa. Pour le corriger, modéliser la dispersion en fonction de quelque chose d'autre dans JAGS ou STAN est probablement le seul moyen pour le moment.
la source
Le sujet que vous expliquez est souvent appelé surdispersion . Dans mon travail, j'ai vu une solution possible à un tel sujet:
Utilisation d'une approche bayésienne et estimation d'une distribution bêta-binomiale. Cela a le grand avantage pour les autres distributions (induites par d'autres antérieurs), d'avoir une solution de forme fermée.
Références:
la source