Une régression logistique maximisant la vraisemblance maximise-t-elle aussi nécessairement l'ASC par rapport aux modèles linéaires?

13

Étant donné un ensemble de données avec des résultats binaires y{0,1}n et une matrice prédictive XRn×p , le modèle de régression logistique standard estime les coefficients βMLE qui maximisent la vraisemblance binomiale. Lorsque X est de rang complet βMLE est unique; lorsque la séparation parfaite n'est pas présente, elle est finie.

Ce modèle de maximum de vraisemblance maximise-t-il également l'ASC ROC (aka c -statistique), ou existe-t-il une estimation de coefficient βAUCβMLE qui permettra d'obtenir une AUC ROC plus élevée? S'il est vrai que le MLE ne maximise pas nécessairement l'AUC ROC, alors une autre façon de considérer cette question est "Y a-t-il une alternative à la maximisation de vraisemblance qui maximisera toujours l'AUC ROC d'une régression logistique?"

Je suppose que les modèles sont par ailleurs les mêmes: nous n'ajoutons ni ne supprimons de prédicteurs dans X , ni ne modifions autrement la spécification du modèle, et je suppose que les modèles de maximisation de vraisemblance et de maximisation d'AUC utilisent la même fonction de lien.

Sycorax dit de réintégrer Monica
la source
2
Sûrement si, par exemple, une fonction de lien génère un meilleur ajustement qu'un logit? Autre que cela, bonne question, si le processus de génération de données peut être supposé comme logit. βAUCβMLE
Nutle
Bonne question mais réfléchissez. ROC et AUC sont utilisés pour comparer deux modèles différents, donc si une solution pour l'estimation MLE d'un modèle est unique, cela signifie que vous ne pouvez obtenir une AUC différente que si vous modifiez les spécifications du modèle actuel et que vous estimez une nouvelle différence modèle via MLE. Donc, à ce stade, une autre question serait: existe-t-il une autre "meilleure" méthode d'estimation (algorithme de maximisation ecc) autre que le MLE simple applicable au même modèle de telle sorte que j'arrive à différentes estimations des coefficients conduisant à de nouveaux "meilleurs" bêtas avec une ASC plus élevée?
Fr1
@Nutle exactement, ce serait une spécification différente
Fr1
@ Fr1 Oui, c'est ce que signifie unique. Ce que j'implique dans ma question est quelque chose comme "et s'il y a une alternative au MLE qui atteint une ASC plus élevée?" S'il est vrai qu'il existe un modèle linéaire différent (un modèle autre que le MLE) qui atteint une ASC plus élevée, alors ce serait intéressant à connaître.
Sycorax dit Réintégrer Monica
1
@Sycorax que supposons-nous d'autre? :) Les hypothèses sont importantes, car si nous connaissons le vrai DGP avec le lien et les variables utilisés, le MLE est la statistique impartiale la plus puissante.
Nutle

Réponses:

11

Ce n'est pas le cas que βMLE=βAUC .

Pour illustrer cela, considérons que l'AUC peut s'écrire

P(y^1>y^0|y1=1,y0=0)

En d'autres termes, l'ordre des prédictions est la seule chose qui affecte l'AUC . Ce n'est pas le cas avec la fonction de vraisemblance. Donc, en tant qu'exercice mental, supposons que nous avions un seul prédicteur et dans notre ensemble de données, nous ne voyons pas de séparation parfaite (c'est-à-dire, βMLE est fini). Maintenant, si nous prenons simplement la valeur du plus grand prédicteur et l'augmentons d'une petite quantité, nous changerons la probabilité de cette solution, mais cela ne changera pas l'AUC, car l'ordre devrait rester le même. Ainsi, si l'ancien MLE maximisait l'ASC, il maximisera toujours l'ASC après avoir changé le prédicteur, mais ne maximisera plus la probabilité.

Ainsi, à tout le moins, il n'est pas vrai que βAUC n'est pas unique; tout β qui conserve l'ordre des estimations obtient exactement la même ASC. En général, comme l'AUC est sensible à différents aspects des données, je pense que nous devrions pouvoir trouver un cas où βMLE ne maximise pas βAUC . En fait, je suppose que cela se produit avec une forte probabilité.

ÉDITER (déplacer le commentaire en réponse)

L'étape suivante consiste à prouver que le MLE ne maximise pas nécessairement l'AUC (ce qui n'est pas encore prouvé). On peut le faire en prenant quelque chose comme les prédicteurs 1, 2, 3, 4, 5, 6, x (avec x>6 ) avec les résultats 0, 0, 0, 1, 1, 1, 0. Toute valeur positive de β sera maximiser l'ASC (quelle que soit la valeur de x ), mais nous pouvons choisir un x suffisamment grand pour que le βMLE<0 .

Cliff AB
la source
1
(+1) Ah! Bien sûr - puisqu'il s'agit de la commande, nous pourrions changer arbitrairement l'ordonnée à l'origine qui doit évidemment changer la valeur de vraisemblance, mais la commande doit être la même car aucun des coefficients de caractéristique n'a changé, donc l'ASC restera fixe.
Sycorax dit Réintégrer Monica
+1. Est-ce que l' exemple d' édition fonctionne avec , cependant? Si nous devons prendre suffisamment grand x pour que cela fonctionne avec un grand n , la probabilité de telles valeurs existantes ne converge-t-elle pas rapidement vers 0, pour certains logit fixes? nxn
Nutle
@Nutle: eh bien, cela dépend de ce que vous voulez dire à propos de . Si nous prenions n copies (prédicteurs + résultats) de mon jeu de données de jouets, alors oui, le résultat tiendrait. Cependant, si nous prenions n copies de cet ensemble de prédicteurs et que les données provenaient vraiment d'un modèle de régression logistique, cela ne se produirait presque jamais (comme vous le signalez). Notez, cependant, que quelque chose de semblable pourrait se produire avec une forte probabilité si la relation entre les prédicteurs ne suivait pas vraiment un modèle de régression logistique. nnn
Cliff AB
xn