Étant donné un ensemble de données avec des résultats binaires et une matrice prédictive , le modèle de régression logistique standard estime les coefficients qui maximisent la vraisemblance binomiale. Lorsque est de rang complet est unique; lorsque la séparation parfaite n'est pas présente, elle est finie.
Ce modèle de maximum de vraisemblance maximise-t-il également l'ASC ROC (aka -statistique), ou existe-t-il une estimation de coefficient qui permettra d'obtenir une AUC ROC plus élevée? S'il est vrai que le MLE ne maximise pas nécessairement l'AUC ROC, alors une autre façon de considérer cette question est "Y a-t-il une alternative à la maximisation de vraisemblance qui maximisera toujours l'AUC ROC d'une régression logistique?"
Je suppose que les modèles sont par ailleurs les mêmes: nous n'ajoutons ni ne supprimons de prédicteurs dans , ni ne modifions autrement la spécification du modèle, et je suppose que les modèles de maximisation de vraisemblance et de maximisation d'AUC utilisent la même fonction de lien.
la source
Réponses:
Ce n'est pas le cas queβMLE=βAUC .
Pour illustrer cela, considérons que l'AUC peut s'écrire
En d'autres termes, l'ordre des prédictions est la seule chose qui affecte l'AUC . Ce n'est pas le cas avec la fonction de vraisemblance. Donc, en tant qu'exercice mental, supposons que nous avions un seul prédicteur et dans notre ensemble de données, nous ne voyons pas de séparation parfaite (c'est-à-dire,βMLE est fini). Maintenant, si nous prenons simplement la valeur du plus grand prédicteur et l'augmentons d'une petite quantité, nous changerons la probabilité de cette solution, mais cela ne changera pas l'AUC, car l'ordre devrait rester le même. Ainsi, si l'ancien MLE maximisait l'ASC, il maximisera toujours l'ASC après avoir changé le prédicteur, mais ne maximisera plus la probabilité.
Ainsi, à tout le moins, il n'est pas vrai queβAUC n'est pas unique; tout β qui conserve l'ordre des estimations obtient exactement la même ASC. En général, comme l'AUC est sensible à différents aspects des données, je pense que nous devrions pouvoir trouver un cas où βMLE ne maximise pas βAUC . En fait, je suppose que cela se produit avec une forte probabilité.
ÉDITER (déplacer le commentaire en réponse)
L'étape suivante consiste à prouver que le MLE ne maximise pas nécessairement l'AUC (ce qui n'est pas encore prouvé). On peut le faire en prenant quelque chose comme les prédicteurs 1, 2, 3, 4, 5, 6,x (avec x>6 ) avec les résultats 0, 0, 0, 1, 1, 1, 0. Toute valeur positive de β sera maximiser l'ASC (quelle que soit la valeur de x ), mais nous pouvons choisir un x suffisamment grand pour que le βMLE<0 .
la source