Pour la régression linéaire, nous pouvons vérifier les tracés de diagnostic (tracés de résidus, tracés QQ normaux, etc.) pour vérifier si les hypothèses de régression linéaire sont violées.
Pour la régression logistique, j'ai du mal à trouver des ressources qui expliquent comment diagnostiquer l'ajustement du modèle de régression logistique. En fouillant quelques notes de cours pour GLM, cela indique simplement que la vérification des résidus n’est pas utile pour effectuer le diagnostic pour un ajustement de régression logistique.
En regardant sur Internet, il semble également exister diverses procédures de "diagnostic", telles que la vérification de la déviance du modèle et la réalisation de tests du khi-deux, mais d'autres sources affirment que cela est inapproprié et que vous devez effectuer un test d'ajustement Hosmer-Lemeshow. tester. Ensuite, je trouve d’autres sources indiquant que ce test peut être fortement dépendant des regroupements réels et des valeurs seuils (peut ne pas être fiable).
Alors, comment diagnostiquer la régression logistique?
la source
Réponses:
Quelques techniques plus récentes que j'ai rencontrées pour évaluer l'adéquation des modèles de régression logistique proviennent de revues de sciences politiques:
Ces deux techniques prétendent remplacer les tests de qualité d'adaptation (comme Hosmer et Lemeshow) et identifier une éventuelle spécification erronée (en particulier la non-linéarité dans les variables incluses dans l'équation). Celles-ci sont particulièrement utiles car les mesures d’ajustement R-carré typiques sont fréquemment critiquées .
Les deux articles ci-dessus utilisent les probabilités prédites par rapport aux résultats observés dans les graphiques - évitant quelque peu la question peu claire de ce qui est un résidu dans de tels modèles. Des exemples de résidus pourraient être la contribution à la log-vraisemblance ou les résidus de Pearson (je crois qu’il en existe beaucoup plus). Une autre mesure souvent intéressante (bien que non résiduelle) est la DFBeta (le montant estimé par un coefficient change lorsqu'une observation est exclue du modèle). Voir les exemples dans Stata pour cette page UCLA sur les diagnostics de régression logistique ainsi que sur d'autres procédures de diagnostic potentielles.
Je ne l’ai pas sous la main, mais je crois que les modèles de régression de J. Scott Long pour les variables dépendantes catégorielles et limitées fournissent suffisamment de détails sur toutes ces différentes mesures de diagnostic de manière simple.
la source
La question n'était pas assez motivée. Il doit y avoir une raison d’exécuter des diagnostics de modèle, tels que
À l'exception de la vérification d'éléments orthogonaux à la spécification de régression algébrique (par exemple, l'examen de la distribution des résidus dans des modèles linéaires ordinaires), le diagnostic de modèle peut créer autant de problèmes qu'ils résolvent, à mon avis. Cela est particulièrement vrai du modèle logistique binaire, car il ne repose sur aucune hypothèse de répartition.
Il est donc généralement préférable de passer du temps à spécifier le modèle, en particulier pour ne pas supposer de linéarité pour les variables considérées comme fortes pour lesquelles aucune preuve antérieure ne suggère de linéarité. Dans certaines occasions , vous pouvez pré-définir un modèle qui doit s'adapter, par exemple, si le nombre de prédicteurs est faible ou vous permettre à tous les facteurs prédictifs d'être non linéaire et (correctement) supposent aucune interaction.
Toute personne estimant que les diagnostics de modèle peuvent être utilisés pour modifier le modèle doit exécuter ce processus au sein d'une boucle d'amorçage pour estimer correctement les incertitudes du modèle induit.
la source
Ce fil est assez ancien, mais j’ai pensé qu’il serait utile d’ajouter que, depuis récemment, vous pouvez utiliser le paquet DHARMa R pour transformer les résidus de n’importe quel GL (M) M en un espace normalisé. Une fois que cela est fait, vous pouvez évaluer / tester visuellement les problèmes résiduels tels que les écarts par rapport à la distribution, la dépendance résiduelle à un prédicteur, l'hétéroscédasticité ou l'autocorrélation de manière normale. Voir la vignette du paquet pour des exemples élaborés, ainsi que d'autres questions sur le CV ici et ici .
la source