Interprétation du pseudo-R2 de McFadden

29

J'ai un modèle de régression logistique binaire avec un pseudo-R de McFadden de 0,192 avec une variable dépendante appelée paiement (1 = paiement et 0 = pas de paiement). Quelle est l'interprétation de ce pseudo R au carré?

S'agit-il d'une comparaison relative pour les modèles imbriqués (par exemple, un modèle à 6 variables a un pseudo-R de McFadden de 0,192, tandis qu'un modèle à 5 variables (après avoir supprimé une variable du modèle à 6 variables susmentionné), ce modèle à 5 variables a un pseudo-R - au carré de 0,131. Voudrions-nous conserver cette 6e variable dans le modèle?) ou s'agit-il d'une quantité absolue (par exemple, un modèle donné qui a un pseudo de McFadden R-carré de 0,192 est meilleur que tout modèle existant avec un pseudo de McFadden R-carré de 0,180 (même pour les modèles non imbriqués)? Ce ne sont que des façons possibles de regarder le pseudo R-carré de McFadden; cependant, je suppose que ces deux vues sont loin, donc la raison pour laquelle je pose cette question ici.

J'ai fait beaucoup de recherches sur ce sujet, et je n'ai pas encore trouvé la réponse que je cherche en termes de pouvoir interpréter le pseudo-R d'un McFadden de 0,192. Toutes les informations et / ou références sont grandement appréciées! Avant de répondre à cette question, je suis conscient que ce n'est pas la meilleure mesure pour décrire un modèle de régression logistique, mais j'aimerais malgré tout avoir une meilleure compréhension de cette statistique!

Matt Reichenbach
la source

Réponses:

34

J'ai donc pensé que je résumerais ce que j'avais appris sur le pseudo R2 de McFadden comme une bonne réponse.

La référence fondamentale que je peux voir pour le pseudo R2 de McFadden est: McFadden, D. (1974) «Analyse logit conditionnelle du comportement de choix qualitatif». Pp. 105-142 dans P. Zarembka (éd.), Frontiers in Econometrics. Presse académique. http://eml.berkeley.edu/~mcfadden/travel.html La figure 5.5 montre la relation entre les mesures rho-squared et R2 traditionnelles de l'OLS. Mon interprétation est que de plus grandes valeurs de rho-carré (pseudo R2 de McFadden) sont meilleures que de plus petites.

L'interprétation du pseudo R2 de McFadden entre 0,2 et 0,4 provient d'un chapitre de livre auquel il a contribué: Bahvioural Travel Modeling. Sous la direction de David Hensher et Peter Stopher. 1979. McFadden a contribué Ch. 15 "Méthodes quantitatives pour analyser le comportement de voyage des individus: quelques développements récents". La discussion de l'évaluation des modèles (dans le contexte des modèles logit multinomiaux) commence à la page 306 où il présente le rho-carré (le pseudo R2 de McFadden). McFadden déclare que "si l'indice R2 est un concept plus familier aux planificateurs expérimentés en OLS, il ne se comporte pas aussi bien que la mesure rho-carré, pour l'estimation du ML. Ceux qui ne connaissent pas rho-carré devraient être avertis que ses valeurs tendent être considérablement inférieur à ceux de l'indice R2 ... Par exemple, des valeurs de 0,2 à 0,4 pour rho-carré représentent un excellent ajustement.

Donc, fondamentalement, le rho-carré peut être interprété comme R2, mais ne vous attendez pas à ce qu'il soit aussi grand. Et les valeurs de 0,2 à 0,4 indiquent (selon les mots de McFadden) un excellent ajustement du modèle.

Chris
la source
Bon résumé, Chris. Merci pour vos efforts!
Matt Reichenbach
Je suis arrivé en retard à la discussion, mais je vais laisser ce lien où ils expliquent le R2 MacFadden par rapport à d'autres mesures d'ajustement: statisticshorizons.com/r2logistic
sergiouribe
13

Le R au carré de McFadden est défini comme 1-l_mod / l_null, où l_mod est la valeur de vraisemblance logarithmique pour le modèle ajusté et l_null est la probabilité logarithmique pour le modèle nul qui ne comprend qu'une interception comme prédicteur (de sorte que chaque individu est prédit la même probabilité de succès').

Pour un modèle de régression logistique, la valeur de vraisemblance logarithmique est toujours négative (car la contribution de vraisemblance de chaque observation est une probabilité comprise entre 0 et 1). Si votre modèle ne prévoit pas vraiment le résultat mieux que le modèle nul, l_mod ne sera pas beaucoup plus grand que l_null, et donc l_mod / l_null est d'environ 1, et le R de McFadden au carré est proche de 0 (votre modèle n'a pas de valeur prédictive) .

À l'inverse, si votre modèle était vraiment bon, les individus avec un résultat de réussite (1) auraient une probabilité ajustée proche de 1, et vice versa pour ceux avec un résultat d'échec (0). Dans ce cas, si vous effectuez le calcul de la probabilité, la contribution de la probabilité de chaque individu pour votre modèle sera proche de zéro, de sorte que l_mod est proche de zéro et que le R de McFadden est proche de 1, indiquant une très bonne capacité prédictive.

Quant à ce qui peut être considéré comme une bonne valeur, mon opinion personnelle est que, comme des questions similaires en statistiques (par exemple, ce qui constitue une grande corrélation?), Cela ne peut jamais être une réponse définitive. L'année dernière, j'ai écrit un article de blog sur le R au carré de la régression logistique de McFadden, qui contient d'autres illustrations de simulation.

Jonathan Bartlett
la source
5

J'ai fait des recherches plus ciblées sur ce sujet et j'ai trouvé que les interprétations du pseudo R au carré de McFadden (également connu sous le nom d'indice de rapport de vraisemblance) ne sont pas claires; cependant, il peut aller de 0 à 1, mais n'atteindra ou ne dépassera jamais 1 en raison de son calcul.

Une règle d'or que j'ai trouvée très utile est que le pseudo-R d'un McFadden allant de 0,2 à 0,4 indique un très bon ajustement du modèle. En tant que tel, le modèle mentionné ci-dessus avec un pseudo-R de McFadden de 0,192 n'est probablement pas un modèle terrible, du moins par cette métrique, mais il n'est pas particulièrement fort non plus.

Il est également important de noter que le pseudo-carré de McFadden est mieux utilisé pour comparer différentes spécifications du même modèle (c'est-à-dire les modèles imbriqués). En référence à l'exemple susmentionné, le modèle à 6 variables (pseudo R au carré de McFadden = 0,192) correspond mieux aux données que le modèle à 5 variables (pseudo R au carré de McFadden = 0,131), que j'ai formellement testé à l'aide d'un test de rapport de vraisemblance logarithmique , ce qui indique qu'il existe une différence significative ( p <0,001) entre les deux modèles, et donc le modèle à 6 variables est préféré pour l'ensemble de données donné.

Matt Reichenbach
la source
1
Quelle est la référence que vous avez trouvée qui prétend que le R2 de McFadden entre 0,2 et 0,4 est un ajustement «très bon»?
Chris
Btw ... voici une référence et un lien vers l'article original de McFadden où il définit sa mesure pseudo-R2. McFadden, D. (1974) «Analyse logit conditionnelle du comportement de choix qualitatif». Pp. 105-142 dans P. Zarembka (éd.), Frontiers in Econometrics. Presse académique. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris
1
Merci pour les références. Il semble que beaucoup de travaux de McFadden se trouvent sur son site Web de Berkeley. Vous trouverez ci-dessous un lien vers l'intégralité du livre que vous citez ci-dessus: elsa.berkeley.edu/users/mcfadden/travel.html Tous les chapitres apparaissent au format PDF. Le rho-carré (le pseudo R2 de McFadden) est mentionné dans le chapitre 5. À partir des pages 122 (voir l'équation 5.33 et le graphique qui suit immédiatement après). Je ne vois aucune mention de 0,2-0,4 = "ajustement du modèle VG". Je continuerai à chercher l'apparence séminale de cette "règle d'or". Merci de votre aide!
Chris
1
Aucun problème! J'apprécie votre curiosité et votre minutie. L'expression exacte peut être trouvée sur lifesciencesite.com/lsj/life1002/… , où les auteurs déclarent «Une qualité d'ajustement utilisant le pseudo-carré de McFadden (ρ2) est utilisée pour ajuster le modèle global. McFadden a suggéré ρ2 des valeurs comprises entre 0,2 et 0,4 doivent être prises pour représenter un très bon ajustement du modèle (Louviere et al., 2000). "
Matt Reichenbach
4
Mon établissement possède une copie électronique de Louvière et al (2000). "Méthodes de choix déclaré: analyse et applications". La presse de l'Universite de Cambridge. C'est la référence que Lee (Life Science Journal) cite pour rho-squared dans {0.2-0.4} = "VG fit". À la page 55 de Louvière (associée à l'équation 3.32), nous voyons la citation suivante: "Les valeurs de rho au carré entre 0,2 et 0,4 sont considérées comme indicatives de très bons ajustements de modèle. Les simulations de Domenich et McFadden (1975) équivalent cette plage à 0,7 à 0,9 pour une fonction linéaire ".
Chris