En réponse à cette question, John Christie a suggéré d'évaluer l'adéquation des modèles de régression logistique en évaluant les résidus. Je sais comment interpréter les résidus dans les MCO, ils sont à la même échelle que le DV et très clairement la différence entre y et le y prévue par le modèle. Cependant, pour la régression logistique, dans le passé, je venais généralement d’examiner les estimations de l’ajustement du modèle, par exemple AIC, car je ne savais pas ce que signifierait un résidu pour une régression logistique. Après avoir examiné l'aide de R fichiers un peu , je vois que dans R il existe cinq types de résidus de GLM disponibles, c("deviance", "pearson", "working","response", "partial")
. Le fichier d'aide fait référence à:
- Davison, AC et Snell, EJ (1991) Résidus et diagnostics. Dans: Théorie statistique et modélisation. En l'honneur de Sir David Cox, FRS , eds. Hinkley, DV, Reid, N. et Snell, EJ, Chapman & Hall.
Je n'en ai pas de copie. Existe-t-il un moyen simple de décrire comment interpréter chacun de ces types? Dans un contexte logistique, la somme des résidus au carré fournira-t-elle une mesure significative de l'ajustement du modèle ou est-il préférable de disposer d'un critère d'information?
binnedplot
fonction dans le bras de package R donne un graphique très utile des résidus. Il est bien décrit aux pages 97-101 de Gelman and Hill 2007 .Réponses:
Faire une régression logistique revient à trouver une valeur bêta telle que la somme des résidus de déviance au carré soit minimisée.
Cela peut être illustré avec un complot, mais je ne sais pas comment en télécharger un.
la source
plogit
provient-il? Il n'était pas clair si vous le définissiez ici ou l'obteniez ailleurs.plogit
est dans R (stats), aucun package requis (du moins plus maintenant)Sur les résidus de poires,
Le résidu de Pearson est la différence entre les probabilités observée et estimée divisée par l'écart-type binomial de la probabilité estimée. Par conséquent, normaliser les résidus. Pour les grands échantillons, les résidus standardisés doivent avoir une distribution normale.
De Ménard, Scott (2002). Analyse de régression logistique appliquée, 2e édition. Thousand Oaks, CA: Sage Publications. Série: Applications quantitatives en sciences sociales, n ° 106. Première édition, 1995. Voir le chapitre 4.4.
la source
Les résidus de travail sont les résidus de l'itération finale de toute méthode des moindres carrés pondérée de manière itérative . Je pense que cela signifie les résidus lorsque nous pensons que c'est la dernière itération de notre exécution de modèle. Cela peut donner lieu à discussion que le fonctionnement du modèle est un exercice itératif.
la source