J'ai une SPSS
sortie pour un modèle de régression logistique. La sortie indique deux mesures pour l'ajustement du modèle, Cox & Snell
et Nagelkerke
.
Donc, en règle générale, laquelle de ces mesures rapporteriez-vous comme ajustement du modèle?
Ou, lequel de ces indices d'ajustement est celui qui est habituellement rapporté dans les journaux?
Un peu d’arrière-plan: La régression tente de prédire la présence ou l’absence d’un oiseau (grand tétras) à partir de certaines variables environnementales (p. Ex. Pente, couverture végétale, ...). Malheureusement, l’oiseau n’apparaissant pas très souvent (35 résultats sur 468 manqués), la régression est assez médiocre. Cox & Snell est 0,09, Nagelkerke, 0,23.
Le sujet concerne les sciences de l'environnement ou l'écologie.
Réponses:
Normalement, je ne signalerais pas du tout. Hosmer et Lemeshow, dans leur manuel Applied Logistic Regression (2nd Ed.), Expliquent pourquoi:R2
[À la p. 164.]
Concernant diverses versions ML de , la "pseudo " stat, ils indiquent qu'il n'est pas "recommandé pour une utilisation courante, car il n'est pas aussi intuitivement facile à expliquer", mais ils se sentent obligés de la décrire car divers les progiciels le signalent.R 2R2 R2
Ils concluent cette discussion en écrivant,
[À la p. 167.]
Mon expérience avec certains grands modèles logistiques (100 000 à 300 000 enregistrements, 100 à 300 variables explicatives) a été exactement telle que décrite par H & L. Je pouvais atteindre un relativement élevé avec mes données, jusqu'à environ 0,40. Celles-ci correspondaient à des taux d'erreur de classification compris entre 3% et 15% (faux négatifs et faux positifs, équilibrés, comme le confirme l'utilisation de jeux de données à 50% de conservation). Comme H & L l’a laissé entendre, j’ai dû passer beaucoup de temps à désabuser le client (un consultant sophistiqué lui-même, qui connaissait ) à propos de et l’obligeant à se concentrer sur les éléments importants de l’analyse (erreur de classification). les taux). Je peux vivement recommander de décrire les résultats de votre analyse sans faire référence à , qui est plus susceptible d'induire en erreur qu'autrement.R 2 R 2 R 2R2 R2 R2 R2
la source
Les deux indices sont des mesures de la force de l'association (c'est-à-dire si un prédicteur est associé au résultat, comme pour un test de RC), et peuvent être utilisés pour quantifier la capacité de prévision ou les performances du modèle. Un seul prédicteur peut avoir un effet significatif sur le résultat, mais il peut ne pas être nécessairement utile pour prédire la réponse individuelle , d'où la nécessité d'évaluer la performance du modèle dans son ensemble (par rapport au modèle nul). Le Nagelkerke est utile car sa valeur maximale est 1.0, comme le dit Srikant. Ceci est juste une version normalisée de calculée à partir du rapport de vraisemblance,R 2 R 2 LR = 1 - exp ( - LR / n )R2 R2 R2LR=1−exp(−LR/n) , qui a un lien avec la statistique de Wald pour l’association globale, proposée à l’origine par Cox et Snell. Les autres indices de capacité prédictive sont le score de Brier, l'indice C (probabilité de concordance ou zone ROC) ou le D de Somers, les deux derniers offrant une meilleure mesure de la discrimination prédictive.
Les seules hypothèses retenues dans la régression logistique sont celles de linéarité et d' additivité (+ indépendance). Bien que de nombreux tests globaux de qualité de l’ajustement (comme le test Hosmer & Lemeshow , mais voir mon commentaire à @onestop) aient été proposés, ils manquent généralement de puissance. Pour évaluer l'adéquation du modèle, il est préférable de s'appuyer sur des critères visuels (estimations stratifiées, lissage non paramétrique) permettant de détecter un écart local ou global entre les résultats prévus et observés (par exemple, la non-linéarité ou l'interaction), ce qui est largement détaillé dans le logiciel RMS de Harrell. document à distribuer . Sur un sujet connexe (tests d’étalonnage), Steyerberg ( Modèles de prédiction cliniqueχ2 , 2009) indique la même approche pour évaluer la concordance entre les résultats observés et les probabilités prédites:
Il suggère également de s'appuyer sur la différence absolue entre les résultats observés lissés et les probabilités prédites, soit visuellement, soit avec la statistique E de Harrell.
On trouvera plus de détails dans le livre de Harrell, Regression Modeling Strategies (p. 203-205, 230-244, 247-249). Pour une discussion plus récente, voir aussi
Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M., Obuchowski, N, Pencina, MJ et Kattan, MW (2010). Évaluation de la performance des modèles de prévision, un cadre pour les mesures traditionnelles et nouvelles . Epidemiology , 21 (1) , 128-138.
la source
J'aurais pensé que le principal problème de toute mesure de pour la régression logistique est qu'il s'agit d'un modèle dont la valeur de bruit est connue. Cela diffère de la régression linéaire standard, où le niveau de bruit est généralement traité comme inconnu. Car nous pouvons écrire une fonction de densité de probabilité glm comme:R2
Où Sont des fonctions connues et pour la fonction de lien inverse . Si nous définissons les résidus de déviance GLM habituels commeb(.), c(.), d(.;.) μi=g−1(xTiβ) g−1(.)
Où est la dimension de . Pour la régression logistique, nous avons , qui est connu. Nous pouvons donc utiliser cette information pour décider d’un niveau défini de résidu "acceptable" ou "raisonnable". Cela ne peut généralement pas être fait pour la régression OLS (sauf si vous avez des informations préalables sur le bruit). À savoir, nous nous attendons à ce que chaque résidu de déviance soit d'environ . Trop de et il est probable que le modèle manque d’effets importants (sous-ajustement); trop de et il est probable que le modèle présente des effets redondants ou parasites (surajustement). (Celles-ci pourraient également signifier une mauvaise spécification de modèle).p β ϕ=1 1 d2i≫1 d2i≪1
Maintenant, cela signifie que le problème pour le pseudo- est qu’il ne tient pas compte du fait que le niveau de variation binomiale est prévisible (à condition que la structure d’erreur binomiale ne soit pas mise en doute). Ainsi, même si Nagelkerke est compris entre et , il n’est toujours pas mis à l’échelle correctement. De plus, je ne vois pas pourquoi ils s'appellent pseudo s'ils ne sont pas égaux à lorsque vous adaptez un "GLM" avec un lien d'identité et une erreur normale. Par exemple, le R-carré cox-snell équivalent pour l'erreur normale (en utilisant l'estimation de variance REML) est donné par:R2 0 1 R2 R2
Ce qui semble certainement étrange.
Je pense que la meilleure mesure de «qualité de l'ajustement» est la somme des résidus de déviance, . C'est principalement parce que nous avons un objectif à atteindre.χ2
la source
J'ai trouvé le document succinct de Tue Tjur intitulé "Les coefficients de détermination dans les modèles de régression logistique - Une nouvelle proposition: le coefficient de discrimination" (2009, The American Statistician ) sur diverses propositions de coefficient de détermination dans les modèles logistiques très éclairant. Il fait du bon travail en soulignant les avantages et les inconvénients - et propose bien sûr une nouvelle définition. Très recommandé (même si je n'ai pas de favori moi-même).
la source
J'allais aussi dire «ni l'un ni l'autre», alors j'ai voté pour la réponse de Whuber.
Outre la critique de R ^ 2, Hosmer & Lemeshow ont proposé une mesure alternative du bien-être de la régression logistique parfois utile. Ceci est basé sur la division des données en (disons) 10 groupes de taille égale (ou aussi proche que possible) en ordonnant sur la probabilité prédite (ou de manière équivalente, le prédicteur linéaire) puis en comparant le nombre observé à celui de réponses positives dans chaque groupe. et effectuer un test du chi carré. Ce «test d'adéquation Hosmer-Lemeshow» est implémenté dans la plupart des progiciels statistiques.
la source
Design
package de Frank Harrell contient le test alternatif H & L 1 df.Je préférerais le Nagelkerke car ce modèle correspond à 1 lorsque le modèle s’ajuste parfaitement, ce qui donne au lecteur une idée de la distance qui sépare votre modèle d’un ajustement parfait. Le Cox & Shell n'atteint pas 1 pour un ajustement parfait du modèle et donc interpréter une valeur de 0,09 est un peu plus difficile. Voir cette URL pour plus d'informations sur Pseudo RSquared pour une explication des différents types d'ajustements.
la source
Malgré les arguments contre l'utilisation de pseudo-r-carrés, certaines personnes voudront, pour diverses raisons, continuer à les utiliser au moins à certains moments. Ce que j’ai intériorisé à partir de mes lectures (et je suis désolé de ne pouvoir fournir de citations pour le moment), c’est que
si elles sont toutes deux supérieures à 0,5, Nag. volonté; et
s'ils chevauchent .5, punt.
En outre, une formule dont les résultats se situent souvent entre les deux, mentionnée par Scott Menard dans l’Analyse de régression logistique appliquée (Sage), est la suivante:
Ceci est noté "L" dans le tableau ci-dessous.
la source