Quelle mesure pseudo- est celle à déclarer pour la régression logistique (Cox & Snell ou Nagelkerke)?

55

J'ai une SPSSsortie pour un modèle de régression logistique. La sortie indique deux mesures pour l'ajustement du modèle, Cox & Snellet Nagelkerke.

Donc, en règle générale, laquelle de ces mesures R² rapporteriez-vous comme ajustement du modèle?

Ou, lequel de ces indices d'ajustement est celui qui est habituellement rapporté dans les journaux?


Un peu d’arrière-plan: La régression tente de prédire la présence ou l’absence d’un oiseau (grand tétras) à partir de certaines variables environnementales (p. Ex. Pente, couverture végétale, ...). Malheureusement, l’oiseau n’apparaissant pas très souvent (35 résultats sur 468 manqués), la régression est assez médiocre. Cox & Snell est 0,09, Nagelkerke, 0,23.

Le sujet concerne les sciences de l'environnement ou l'écologie.

Henrik
la source
3
L’excellent site d’aide statistique de UCLA contient une excellente page qui explique les différents pseudo- R2 et leur relation entre eux.
gung - Rétablir Monica
Voici deux liens qui traitent d'un algorithme non paramétrique exact qui optimise la précision des modèles de régression logistique. Si vous utilisez cette méthode avec vos données, les performances de classification de votre modèle de régression logistique seront améliorées lorsqu'elles seront appliquées à l'échantillon. Exemple 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Exemple 2: epm.sagepub.com/content/54/1/73.abstract
user31256
1
Nouveau lien UCLA: stats.idre.ucla.edu/other/mult-pkg/faq/general/…
Aaron - Réintégrer Monica le

Réponses:

74

Normalement, je ne signalerais pas du tout. Hosmer et Lemeshow, dans leur manuel Applied Logistic Regression (2nd Ed.), Expliquent pourquoi:R2

En général, les [ mesures ] sont basées sur diverses comparaisons des valeurs prédites du modèle ajusté à celles du [modèle de base], du modèle sans données ou avec interception uniquement et, par conséquent, ne permettent pas d'évaluer la qualité de -en forme. Nous pensons qu'une vraie mesure de l'ajustement est celle qui est strictement basée sur une comparaison des valeurs observées aux valeurs prédites à partir du modèle ajusté.R2

[À la p. 164.]

Concernant diverses versions ML de , la "pseudo " stat, ils indiquent qu'il n'est pas "recommandé pour une utilisation courante, car il n'est pas aussi intuitivement facile à expliquer", mais ils se sentent obligés de la décrire car divers les progiciels le signalent.R 2R2R2

Ils concluent cette discussion en écrivant,

... les valeurs inférieures à dans la régression logistique sont la norme et cela pose un problème lors de la communication de leurs valeurs à un public habitué à voir les valeurs de régression linéaire. ... Ainsi, nous ne recommandons pas la publication systématique de valeurs avec des résultats de modèles logistiques ajustés. Cependant, ils peuvent être utiles dans l'état de construction du modèle en tant que statistique permettant d'évaluer des modèles concurrents.R 2R2R2

[À la p. 167.]

Mon expérience avec certains grands modèles logistiques (100 000 à 300 000 enregistrements, 100 à 300 variables explicatives) a été exactement telle que décrite par H & L. Je pouvais atteindre un relativement élevé avec mes données, jusqu'à environ 0,40. Celles-ci correspondaient à des taux d'erreur de classification compris entre 3% et 15% (faux négatifs et faux positifs, équilibrés, comme le confirme l'utilisation de jeux de données à 50% de conservation). Comme H & L l’a laissé entendre, j’ai dû passer beaucoup de temps à désabuser le client (un consultant sophistiqué lui-même, qui connaissait ) à propos de et l’obligeant à se concentrer sur les éléments importants de l’analyse (erreur de classification). les taux). Je peux vivement recommander de décrire les résultats de votre analyse sans faire référence à , qui est plus susceptible d'induire en erreur qu'autrement.R 2 R 2 R 2R2R2R2R2

whuber
la source
1
(+1) Au départ, je pensais élargir ma réponse (qui venait juste après la vôtre), mais votre réponse est certainement autosuffisante.
chl
merci pour cela, utile pour un projet sur lequel je travaille actuellement - et qui a tout son sens.
Brandon Bertelsen
1
@ Whuber: J'ai aussi tendance à graviter vers un classement correct. taux, mais j’ai vu de nombreuses références dans des manuels et sur des sites Web qui mettaient en garde les analystes de ne pas leur faire confiance et soulignaient que le pseudo-RSQ, malgré ses limites, était un indicateur plus juste. J'ai souvent lu quelque chose qui semble être corroboré dans une certaine mesure dans mes propres analyses: le fait d'ajouter un prédicteur donné pourrait augmenter le pseudo-rsq (et d'autres mesures indiqueraient un avantage de l'ajout) alors que le taux de classification correct échouait, et que l'on ne devrait pas faire confiance à ce dernier. Avez-vous pensé à cela?
rolando2
4
@ rolando2 Oui, j'ai. Cela soulève la question de savoir combien le pseudo- devrait monter pour justifier l'inclusion de variables. Je soupçonne que votre "taux de classification correct" peut faire référence au taux dans l'échantillon , qui est bien sûr biaisé. Si cela est correct, alors ce que vous lisez ne fait que comparer deux statistiques inférieures. La fréquence d' échantillonnage insuffisante est un indicateur beaucoup plus utile que le pseudo- . R 2R2R2
whuber
1
+1 En outre, pour développer une partie subtile de votre réponse, vous mentionnez les taux d'erreur de classification , qui sont au pluriel et ne doivent pas être confondus avec l' exactitude . Il existe de nombreux types de calculs pouvant découler d'une matrice de confusion - exactitude , taux de faux positifs , précision , etc. - et celui dont nous nous soucions dépend de l'application. En outre, vous faites la distinction entre hors échantillon , ce qui est distinct de la validation croisée , mais parfois confondu avec elle.
Wayne
27

Les deux indices sont des mesures de la force de l'association (c'est-à-dire si un prédicteur est associé au résultat, comme pour un test de RC), et peuvent être utilisés pour quantifier la capacité de prévision ou les performances du modèle. Un seul prédicteur peut avoir un effet significatif sur le résultat, mais il peut ne pas être nécessairement utile pour prédire la réponse individuelle , d'où la nécessité d'évaluer la performance du modèle dans son ensemble (par rapport au modèle nul). Le Nagelkerke est utile car sa valeur maximale est 1.0, comme le dit Srikant. Ceci est juste une version normalisée de calculée à partir du rapport de vraisemblance,R 2 R 2 LR = 1 - exp ( - LR / n )R2R2RLR2=1exp(LR/n), qui a un lien avec la statistique de Wald pour l’association globale, proposée à l’origine par Cox et Snell. Les autres indices de capacité prédictive sont le score de Brier, l'indice C (probabilité de concordance ou zone ROC) ou le D de Somers, les deux derniers offrant une meilleure mesure de la discrimination prédictive.

Les seules hypothèses retenues dans la régression logistique sont celles de linéarité et d' additivité (+ indépendance). Bien que de nombreux tests globaux de qualité de l’ajustement (comme le test Hosmer & Lemeshow , mais voir mon commentaire à @onestop) aient été proposés, ils manquent généralement de puissance. Pour évaluer l'adéquation du modèle, il est préférable de s'appuyer sur des critères visuels (estimations stratifiées, lissage non paramétrique) permettant de détecter un écart local ou global entre les résultats prévus et observés (par exemple, la non-linéarité ou l'interaction), ce qui est largement détaillé dans le logiciel RMS de Harrell. document à distribuer . Sur un sujet connexe (tests d’étalonnage), Steyerberg ( Modèles de prédiction cliniqueχ2, 2009) indique la même approche pour évaluer la concordance entre les résultats observés et les probabilités prédites:

L'étalonnage est lié à la qualité de l'ajustement, ce qui a trait à la capacité d'un modèle à s'adapter à un ensemble de données donné. En règle générale, il n’existe pas de test unique de qualité d’ajustement offrant un bon pouvoir contre tous les types d’ajustement d’un modèle de prédiction. Des non-linéarités, des interactions ou une fonction de lien inappropriée entre le prédicteur linéaire et le résultat sont des exemples de manque d’ajustement. La qualité d'ajustement peut être testée avec une statistique . (p. 274)χ2

Il suggère également de s'appuyer sur la différence absolue entre les résultats observés lissés et les probabilités prédites, soit visuellement, soit avec la statistique E de Harrell.

On trouvera plus de détails dans le livre de Harrell, Regression Modeling Strategies (p. 203-205, 230-244, 247-249). Pour une discussion plus récente, voir aussi

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M., Obuchowski, N, Pencina, MJ et Kattan, MW (2010). Évaluation de la performance des modèles de prévision, un cadre pour les mesures traditionnelles et nouvelles . Epidemiology , 21 (1) , 128-138.

chl
la source
Pourriez-vous préciser la distinction entre "qualité de l'ajustement" et force d'association ou capacité prédictive?
Andy W
@Andy Merci d'avoir signalé cela. Je me rends compte par la suite que ma première phrase ne sonne pas vraiment bien. Je vais mettre à jour ma réponse, s'il vous plaît laissez-moi savoir si cela vous convient.
chl
Merci pour la mise à jour et cela clarifie la distinction.
Andy W
21

J'aurais pensé que le principal problème de toute mesure de pour la régression logistique est qu'il s'agit d'un modèle dont la valeur de bruit est connue. Cela diffère de la régression linéaire standard, où le niveau de bruit est généralement traité comme inconnu. Car nous pouvons écrire une fonction de densité de probabilité glm comme:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Où Sont des fonctions connues et pour la fonction de lien inverse . Si nous définissons les résidus de déviance GLM habituels commeb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Le que nous avons (via le ratio de vraisemblance chi-carré, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Où est la dimension de . Pour la régression logistique, nous avons , qui est connu. Nous pouvons donc utiliser cette information pour décider d’un niveau défini de résidu "acceptable" ou "raisonnable". Cela ne peut généralement pas être fait pour la régression OLS (sauf si vous avez des informations préalables sur le bruit). À savoir, nous nous attendons à ce que chaque résidu de déviance soit d'environ . Trop de et il est probable que le modèle manque d’effets importants (sous-ajustement); trop de et il est probable que le modèle présente des effets redondants ou parasites (surajustement). (Celles-ci pourraient également signifier une mauvaise spécification de modèle).pβϕ=11di21di21

Maintenant, cela signifie que le problème pour le pseudo- est qu’il ne tient pas compte du fait que le niveau de variation binomiale est prévisible (à condition que la structure d’erreur binomiale ne soit pas mise en doute). Ainsi, même si Nagelkerke est compris entre et , il n’est toujours pas mis à l’échelle correctement. De plus, je ne vois pas pourquoi ils s'appellent pseudo s'ils ne sont pas égaux à lorsque vous adaptez un "GLM" avec un lien d'identité et une erreur normale. Par exemple, le R-carré cox-snell équivalent pour l'erreur normale (en utilisant l'estimation de variance REML) est donné par:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Ce qui semble certainement étrange.

Je pense que la meilleure mesure de «qualité de l'ajustement» est la somme des résidus de déviance, . C'est principalement parce que nous avons un objectif à atteindre.χ2

probabilislogic
la source
+1 Belle présentation des problèmes évoqués dans les commentaires qui suivent la réponse de Srikant .
whuber
Étant donné qu'un modèle GLM binomial serait ajusté à l'aide de moindres carrés repondérés de manière itérative, pourquoi ne pourrait-on pas mesurer la qualité de l'ajustement et ne pas déclarer le R2 de l'ajustement pondéré des moindres carrés de la dernière itération IRLS avec laquelle le GLM était adapté? Comme dans stats.stackexchange.com/questions/412580/… ?
Tom Wenseleers
16

J'ai trouvé le document succinct de Tue Tjur intitulé "Les coefficients de détermination dans les modèles de régression logistique - Une nouvelle proposition: le coefficient de discrimination" (2009, The American Statistician ) sur diverses propositions de coefficient de détermination dans les modèles logistiques très éclairant. Il fait du bon travail en soulignant les avantages et les inconvénients - et propose bien sûr une nouvelle définition. Très recommandé (même si je n'ai pas de favori moi-même).

S. Kolassa - Réintégrer Monica
la source
1
Merci d'avoir signalé ce papier; cela m’a manqué (et cela est apparu alors que j’étais au milieu d’un grand projet de régression logistique!).
whuber
3
Pour mémoire, cette nouvelle définition est , qui est la valeur prédite moyenne pour les réponses moins la valeur prédite moyenne pour les réponses . Il peut aller de à . Tjur ne rejette pas le pseudo Nagelkerke , mais suggère qu'il manque le « attrait intuitif » dont jouit . 1 0 0 1 R 2 DD=π^¯1π^¯01001R2D
whuber
8

J'allais aussi dire «ni l'un ni l'autre», alors j'ai voté pour la réponse de Whuber.

Outre la critique de R ^ 2, Hosmer & Lemeshow ont proposé une mesure alternative du bien-être de la régression logistique parfois utile. Ceci est basé sur la division des données en (disons) 10 groupes de taille égale (ou aussi proche que possible) en ordonnant sur la probabilité prédite (ou de manière équivalente, le prédicteur linéaire) puis en comparant le nombre observé à celui de réponses positives dans chaque groupe. et effectuer un test du chi carré. Ce «test d'adéquation Hosmer-Lemeshow» est implémenté dans la plupart des progiciels statistiques.

un arrêt
la source
3
Le original HL GoF n’est pas très puissant car il dépend de la catégorisation de l’échelle de prédicteur continu en un nombre arbitraire de groupes; H & L a proposé d’envisager le décile, mais cela dépend évidemment de la taille de l’échantillon et, dans certaines circonstances (par exemple, les modèles de TRI), il ya souvent très peu de personnes à une ou deux extrémités de l’échelle, de sorte que les seuils sont inégalement espacés. Voir Une comparaison des tests de qualité de l'ajustement pour le modèle de régression logistique, Stat. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl
Merci chi, c’est une référence utile, même si votre lien j.mp m’a amené à une invite de connexion BiblioInserm. Voici un lien basé sur le doi: dx.doi.org/10.1002/…
onestop
Désolé pour le lien incorrect ... Je crois me souvenir que le Designpackage de Frank Harrell contient le test alternatif H & L 1 df.
chl
3

Je préférerais le Nagelkerke car ce modèle correspond à 1 lorsque le modèle s’ajuste parfaitement, ce qui donne au lecteur une idée de la distance qui sépare votre modèle d’un ajustement parfait. Le Cox & Shell n'atteint pas 1 pour un ajustement parfait du modèle et donc interpréter une valeur de 0,09 est un peu plus difficile. Voir cette URL pour plus d'informations sur Pseudo RSquared pour une explication des différents types d'ajustements.


la source
8
Un «ajustement parfait» est si loin d’être réalisable dans toute régression logistique réaliste qu’il semble injuste de l’utiliser comme référence ou norme.
whuber
1
@whuber True, mais vous pouvez utiliser la norme pour comparer les performances relatives de deux modèles concurrents. Vos points de faible R ^ 2 dans votre réponse et leurs implications sont de bons points, mais si vous avez (par exemple, les réviseurs le demandent, etc.) l’utilisation d’une forme de R ^ 2, alors Nagelkerke est préférable.
1
@Skridant Oui, toujours le problème des réviseurs qui veulent voir et correction de Bonferroni partout ...R2
chl
@Srikant, @chl: Une lecture cynique de ce fil suggèrerait simplement de choisir le plus grand R ^ 2 parmi tous ceux que le logiciel rapporte ;-).
whuber
2
@chl Il est bien sûr nécessaire de proposer des solutions de rappel aux examinateurs / clients, mais nous devons aussi parfois être pragmatiques. Si les lecteurs n'interprètent pas à tort le bas R ^ 2 comme un manque de performance du modèle, les problèmes soulevés par @whuber seront atténués dans une certaine mesure.
3

Malgré les arguments contre l'utilisation de pseudo-r-carrés, certaines personnes voudront, pour diverses raisons, continuer à les utiliser au moins à certains moments. Ce que j’ai intériorisé à partir de mes lectures (et je suis désolé de ne pouvoir fournir de citations pour le moment), c’est que

  • si C & S et Nag. sont inférieurs à 0,5, C & S sera un meilleur indicateur;
    si elles sont toutes deux supérieures à 0,5, Nag. volonté; et
    s'ils chevauchent .5, punt.

En outre, une formule dont les résultats se situent souvent entre les deux, mentionnée par Scott Menard dans l’Analyse de régression logistique appliquée (Sage), est la suivante:

[-2LL0 - (-2LL1)]/-2LL0.

Ceci est noté "L" dans le tableau ci-dessous.

entrez la description de l'image ici

rolando2
la source
Que montre cette image (que représente l’axe horizontal)? En outre, en quoi la dernière formule (qui ressemble à une statistique de rapport de vraisemblance mise à l'échelle) diffère-t-elle de Nagelkerke exactement? R2
chl
Analyse #: j'ai essayé diverses analyses avec différents jeux de données. N'avez pas la formule de Nagelkerke à portée de main, mais je parie qu'elle est facilement disponible.
rolando2
Paul Allison décrit la formule de Nagelkerke, qui est une formule de Cox & Snell ajustée à la hausse, à statisticshorizons.com/2013/02 . Après avoir lu ce blog, et généralement au cours des deux ou trois années écoulées depuis le début de la discussion, je suis devenue plus convaincue que les sous-estimations de Cox & Snell expliquaient la variance et que je ferais mieux de faire la moyenne de C & S et du résultat de Nagelkerke.
rolando2