Quelques possibilités me viennent à l'esprit.
La consultation du taux de réussite global n'est généralement pas une très bonne idée car elle dépendra de la composition de l'ensemble de test si les performances des différentes classes diffèrent. Donc, à tout le moins, vous devez spécifier (et justifier) la fréquence relative des classes dans vos données de test afin de dériver une valeur significative.
Deuxièmement, comme @Shorack l'a déjà dit, spécifiez quels types d'erreur sont importants. Souvent, le classificateur doit répondre à certains critères de performance pour être utile (et la précision globale est rarement la mesure adéquate). Il existe des mesures telles que la sensibilité, la spécificité, la valeur prédictive positive et négative qui prennent en compte les différentes classes et les différents types de classification erronée. Vous pouvez dire que ces mesures répondent à différentes questions sur le classificateur:
- sensibilité: Quelle fraction des cas appartenant véritablement à la classe C est reconnue comme telle?
- spécificité: Quelle fraction des cas n'appartenant vraiment pas à la classe C est reconnue comme telle?
- valeur prédictive positive: étant donné que le classificateur prédit la classe C, quelle est la probabilité que cette prédiction soit correcte?
- valeur prédictive négative: étant donné que le classificateur prédit que le cas n'est pas de la classe C, quelle est la probabilité que cette prédiction soit correcte?
Ces questions permettent souvent de formuler des spécifications dont le classificateur doit avoir besoin pour être utile.
Les valeurs prédictives sont souvent plus importantes du point de vue de l'application pratique du classifieur: elles sont conditionnées à la prédiction, qui est la situation dans laquelle vous vous trouvez lors de l'application du classifieur (un patient n'est généralement pas intéressé à savoir test est de reconnaître les cas malades, mais plutôt la probabilité que le diagnostic déclaré soit correct). Cependant, afin de les calculer correctement, vous devez connaître les fréquences relatives des différentes classes de la population pour laquelle le classificateur est utilisé (il semble que vous ayez ces informations - il n'y a donc rien qui vous empêche de regarder cela).
Vous pouvez également regarder le gain d'informations qu'une prédiction positive ou négative vous donne. Ceci est mesuré par le rapport de vraisemblance positif et négatif, LR⁺ et LR⁻. En bref, ils vous indiquent dans quelle mesure la prédiction modifie les probabilités envers la classe en question. (voir ma réponse ici pour une explication plus détaillée)
Pour votre classificateur trivial, les choses ressemblent à ceci: je vais utiliser la classe "0" comme classe en question, donc "positif" signifie la classe "0". Sur 100 cas, 100 sont prédits positifs (appartenant à la classe 0). 97 d'entre eux le font vraiment, 3 pas. La sensibilité pour la classe 0 est de 100% (tous les 97 cas appartenant véritablement à la classe 0 ont été reconnus), la spécificité est de 0 (aucun des autres cas n'a été reconnu). la valeur prédictive positive (en supposant que la fréquence relative 97: 3 est représentative) est de 97%, la valeur prédictive négative ne peut pas être calculée car aucune prédiction négative ne s'est produite.
LR+=sensitivity1−specificity=1
LR−=1−sensitivityspecificity=00
Direction des pensées complètement différente: vous mentionnez que vous souhaitez évaluer différents classificateurs. Cela ressemble un peu à une comparaison ou à une sélection de classificateurs. La mise en garde avec les mesures dont je discute ci-dessus est qu'elles sont sujettes à une incertitude aléatoire très élevée (ce qui signifie que vous avez besoin de beaucoup de cas de test) si vous les évaluez sur des étiquettes de classe "dures". Si votre prédiction est principalement continue (métrique, par exemple la probabilité postérieure), vous pouvez utiliser des mesures connexes qui regardent le même type de question mais n'utilisez pas des fractions de cas mais des mesures continues, voir ici . Ceux-ci seront également mieux adaptés pour détecter de petites différences dans les prévisions.
(@FrankHarrell vous dira que vous avez besoin de "règles de notation appropriées", c'est donc un autre terme de recherche à garder à l'esprit.)
la source
La courbe caractéristique de fonctionnement du récepteur (ROC) http://en.wikipedia.org/wiki/Receiver_operating_characteristic et les calculs associés (à savoir l'aire sous la courbe-AUC) sont couramment utilisés. En gros, vous imaginez que votre classificateur donne une réponse continue (par exemple entre 0 et 1) et vous tracez la sensibilité par rapport au taux de fausses alertes (1-spécificité) car le seuil de décision varie entre 0 et 1. Ceux-ci ont été spécialement conçus pour des événements rares (repérer l'ennemi Avions?).
la source
Lorsque vous traitez avec des données fortement déséquilibrées, la courbe Précision-Rappel est un très bon outil, meilleur que son cousin le plus commun, la courbe ROC .
Davis et. Al. ont montré qu'un algorithme qui optimise la zone sous la courbe ROC n'est pas garanti pour optimiser la zone sous la courbe PR.
la source