Une règle de notation appropriée est une règle qui est maximisée par un `` vrai '' modèle et qui ne permet pas de `` couvrir '' ou de jouer le système (rapportant délibérément des résultats différents, comme le croit réellement le modèle pour améliorer le score). Le score Brier est correct, la précision (proportion correctement classée) est incorrecte et souvent découragée. Parfois, je vois que l'AUC est appelée une règle de notation semi-correcte, ce qui la rend non complètement fausse en termes de précision, mais moins sensible que les règles appropriées (par exemple ici /stats//a/90705/53084 ).
Que signifie la règle de notation semi-correcte? Est-ce défini quelque part?
Réponses:
Commençons par un exemple. Imaginons qu'Alice est entraîneuse d'athlétisme et souhaite choisir un athlète pour représenter l'équipe lors d'un prochain événement sportif, un sprint de 200 mètres. Naturellement, elle veut choisir le coureur le plus rapide.
Bien que quelque peu banalisé, l'exemple ci-dessus montre ce qui se passe avec l'utilisation des règles de notation. Alice prévoyait le temps de sprint prévu. Dans le contexte de la classification, nous prévoyons des probabilités minimisant l'erreur d'un classificateur probabiliste.
Comme nous le voyons, la règle de notation semi-correcte n'est pas parfaite mais elle n'est pas non plus catastrophique. En fait, cela peut être très utile lors de la prédiction! Cagdas Ozgenc a un excellent exemple ici où travailler avec une règle incorrecte / semi-appropriée est préférable à une règle strictement correcte. En général, le terme règle de notation semi-appropriée n'est pas très courant. Il est associé à des règles incorrectes qui peuvent néanmoins être utiles (par exemple, AUC-ROC ou MAE dans la classification probabiliste).
Enfin, remarquez quelque chose d'important. Comme le sprint est associé à des jambes fortes, il en va de même pour la classification probabiliste correcte avec précision. Il est peu probable qu'un bon sprinter ait des jambes faibles et de même il est peu probable qu'un bon classificateur ait une mauvaise précision. Néanmoins, associer la précision à une bonne performance du classificateur est comme assimiler la force des jambes à une bonne performance de sprint. Pas complètement infondé mais très plausible pour conduire à des résultats absurdes.
la source