J'ai un modèle de régression logistique binaire avec un pseudo-R de McFadden de 0,192 avec une variable dépendante appelée paiement (1 = paiement et 0 = pas de paiement). Quelle est l'interprétation de ce pseudo R au carré?
S'agit-il d'une comparaison relative pour les modèles imbriqués (par exemple, un modèle à 6 variables a un pseudo-R de McFadden de 0,192, tandis qu'un modèle à 5 variables (après avoir supprimé une variable du modèle à 6 variables susmentionné), ce modèle à 5 variables a un pseudo-R - au carré de 0,131. Voudrions-nous conserver cette 6e variable dans le modèle?) ou s'agit-il d'une quantité absolue (par exemple, un modèle donné qui a un pseudo de McFadden R-carré de 0,192 est meilleur que tout modèle existant avec un pseudo de McFadden R-carré de 0,180 (même pour les modèles non imbriqués)? Ce ne sont que des façons possibles de regarder le pseudo R-carré de McFadden; cependant, je suppose que ces deux vues sont loin, donc la raison pour laquelle je pose cette question ici.
J'ai fait beaucoup de recherches sur ce sujet, et je n'ai pas encore trouvé la réponse que je cherche en termes de pouvoir interpréter le pseudo-R d'un McFadden de 0,192. Toutes les informations et / ou références sont grandement appréciées! Avant de répondre à cette question, je suis conscient que ce n'est pas la meilleure mesure pour décrire un modèle de régression logistique, mais j'aimerais malgré tout avoir une meilleure compréhension de cette statistique!
la source
Le R au carré de McFadden est défini comme 1-l_mod / l_null, où l_mod est la valeur de vraisemblance logarithmique pour le modèle ajusté et l_null est la probabilité logarithmique pour le modèle nul qui ne comprend qu'une interception comme prédicteur (de sorte que chaque individu est prédit la même probabilité de succès').
Pour un modèle de régression logistique, la valeur de vraisemblance logarithmique est toujours négative (car la contribution de vraisemblance de chaque observation est une probabilité comprise entre 0 et 1). Si votre modèle ne prévoit pas vraiment le résultat mieux que le modèle nul, l_mod ne sera pas beaucoup plus grand que l_null, et donc l_mod / l_null est d'environ 1, et le R de McFadden au carré est proche de 0 (votre modèle n'a pas de valeur prédictive) .
À l'inverse, si votre modèle était vraiment bon, les individus avec un résultat de réussite (1) auraient une probabilité ajustée proche de 1, et vice versa pour ceux avec un résultat d'échec (0). Dans ce cas, si vous effectuez le calcul de la probabilité, la contribution de la probabilité de chaque individu pour votre modèle sera proche de zéro, de sorte que l_mod est proche de zéro et que le R de McFadden est proche de 1, indiquant une très bonne capacité prédictive.
Quant à ce qui peut être considéré comme une bonne valeur, mon opinion personnelle est que, comme des questions similaires en statistiques (par exemple, ce qui constitue une grande corrélation?), Cela ne peut jamais être une réponse définitive. L'année dernière, j'ai écrit un article de blog sur le R au carré de la régression logistique de McFadden, qui contient d'autres illustrations de simulation.
la source
J'ai fait des recherches plus ciblées sur ce sujet et j'ai trouvé que les interprétations du pseudo R au carré de McFadden (également connu sous le nom d'indice de rapport de vraisemblance) ne sont pas claires; cependant, il peut aller de 0 à 1, mais n'atteindra ou ne dépassera jamais 1 en raison de son calcul.
Une règle d'or que j'ai trouvée très utile est que le pseudo-R d'un McFadden allant de 0,2 à 0,4 indique un très bon ajustement du modèle. En tant que tel, le modèle mentionné ci-dessus avec un pseudo-R de McFadden de 0,192 n'est probablement pas un modèle terrible, du moins par cette métrique, mais il n'est pas particulièrement fort non plus.
Il est également important de noter que le pseudo-carré de McFadden est mieux utilisé pour comparer différentes spécifications du même modèle (c'est-à-dire les modèles imbriqués). En référence à l'exemple susmentionné, le modèle à 6 variables (pseudo R au carré de McFadden = 0,192) correspond mieux aux données que le modèle à 5 variables (pseudo R au carré de McFadden = 0,131), que j'ai formellement testé à l'aide d'un test de rapport de vraisemblance logarithmique , ce qui indique qu'il existe une différence significative ( p <0,001) entre les deux modèles, et donc le modèle à 6 variables est préféré pour l'ensemble de données donné.
la source
http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf
la source