Je réalise une régression logistique avec variables indépendantes et observations. J'évalue l'ajustement du modèle afin de déterminer si les données répondent aux hypothèses du modèle et ont produit le tracé résiduel groupé suivant à l'aide du package:arm
R
Évidemment, il y a de mauvais signes dans ce graphique: de nombreux points se situent en dehors des bandes de confiance et il y a un modèle distinctif pour les résidus. Ma question est - puis-je attacher ces questions à des hypothèses spécifiques du modèle de régression logistique? Par exemple, puis-je dire qu'il existe des preuves de non-linéarité dans les variables indépendantes ou d'hétéroscédasticité? Sinon, existe-t-il d'autres diagnostics que je peux produire pour aider à identifier où se situe le problème?
Sur la base de la réponse de Daniel, il semble que le principal problème est que j'utilisais des résidus sur l'échelle logit mais des valeurs attendues sur l'échelle de réponse. Si je reproduis l'intrigue avec les résidus également sur l'échelle de réponse, cela ressemble à ceci:
ce qui est beaucoup plus crédible.
la source
Réponses:
Soit j'interprète mal votre intrigue, soit il y a un problème. Le fait que vous ayez des résidus négatifs pour des valeurs attendues proches de 0 implique que votre modèle prédit une valeur négative. Cela ne devrait pas être possible pour les modèles de régression logistique qui ne prédisent que dans l'intervalle (0, 1), sauf si vous utilisez la sortie log-odds du modèle, auquel cas l'erreur résiduelle ne doit pas être définie. Comme la régression logistique est une méthode de classification, il est plus utile d'examiner d'abord la matrice de confusion. Vous devez également spécifier si le graphique est basé sur les données du train ou sur un ensemble de tests séparé.
la source