Quelle est la bonne façon de tester la signification des résultats de la classification

21

Il existe de nombreuses situations où vous pouvez former plusieurs classificateurs différents ou utiliser plusieurs méthodes d'extraction de fonctionnalités différentes. Dans la littérature, les auteurs donnent souvent l'erreur de classification moyenne sur un ensemble de divisions aléatoires des données (c'est-à-dire après une validation croisée doublement imbriquée), et donnent parfois aussi des variances sur l'erreur sur les divisions. Cependant, cela ne suffit pas à lui seul pour dire qu'un classificateur est nettement meilleur qu'un autre. J'ai vu de nombreuses approches différentes à ce sujet - en utilisant des tests Chi-carré, t-test, ANOVA avec des tests post-hoc, etc.

Quelle méthode devrait être utilisée pour déterminer la signification statistique? La question sous-jacente est la suivante: quelles hypothèses devrions-nous faire concernant la distribution des scores de classification?

tdc
la source
2
Pourriez-vous publier des exemples d'articles avec: "J'ai vu beaucoup d'approches différentes à ce sujet - en utilisant des tests chi carré, t-test, ANOVA avec des tests post-hoc, etc."? Ça m'intéresse vraiment.
jb.

Réponses:

9

En plus de l'excellente réponse de @ jb., Permettez-moi d'ajouter que vous pouvez utiliser le test de McNemar sur le même ensemble de tests pour déterminer si un classificateur est nettement meilleur que l'autre. Cela ne fonctionnera que pour les problèmes de classification (ce que le travail original de McNemar appelle un «trait dichotomique»), ce qui signifie que les classificateurs ont raison ou tort, sans espace au milieu.

carlosdc
la source
Qu'en est-il dans le scénario lorsque le classificateur peut réussir? Comme il le dit, il ne sait pas. Pouvez-vous toujours utiliser le test de McNemar alors?
S0rin
5

Étant donné que la distribution des erreurs de classification est une distribution binaire (soit il y a une mauvaise classification, soit il n'y en a pas) --- je dirais que l'utilisation du chi carré n'est pas raisonnable.

En outre, seule la comparaison de l'efficacité des classificateurs qui fonctionnent sur les mêmes ensembles de données est raisonnable --- `` Aucun théorème de déjeuner gratuit '' déclare que tous les modèles ont la même efficacité moyenne sur tous les ensembles de données, de sorte que le modèle qui apparaîtra le mieux dépendra uniquement des ensembles de données qui ont été choisi de les former http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Si vous comparez l'efficacité des modèles A et B sur l'ensemble de données D, je pense que l'efficacité moyenne + la moyenne est suffisante pour faire un choix.

De plus, si l'on a de nombreux modèles qui ont une efficacité résonnable (et qui sont linéairement indépendants les uns des autres), je préfère construire un modèle d'ensemble que de simplement choisir le meilleur modèle.

jb.
la source
Mais pour un classificateur unique, vous vous retrouvez avec un ensemble de scores (par exemple MSE sur 100 divisions), qui pourraient être dans la plage [0,1] par exemple. Je pense qu'il serait beaucoup trop coûteux de prendre les résultats de chaque analyse et de les analyser.
tdc
Oui. Mais dans ce cas, la moyenne + stddev suffit pour tester si l'un est significativement meilleur que l'autre, comme pour toute autre mesure.
jb.
2
Je ne suis pas si sûr. Mean & stddev suppose la gaussianité pour commencer, et deuxièmement, cela ne prend pas en compte le nombre de comparaisons effectuées (par exemple, une correction de Bonferroni pourrait être nécessaire)
tdc
1
Il en va de même dans la théorie de base de la mesure. Supposons que nous ayons un micromètre et que nous voulons vérifier si deux tiges ont le même diamètre, nous prenons 100 mesures des deux tiges et vérifions si la moyenne + stddev se chevauchent. Dans les deux cas (mesure de tige et métrique du modèle), nous supposons simplement une distribution gaussienne des résultats, le seul argument raisonnable est le théorème de la limite centrale .
jb.
3

Je recommande l'article de Tom Dietterich intitulé "Tests statistiques approximatifs pour comparer les algorithmes d'apprentissage de classification supervisée". Voici le profil du papier sur CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Du résumé: "Cet article passe en revue cinq tests statistiques approximatifs pour déterminer si un algorithme d'apprentissage surpasse un autre sur une tâche d'apprentissage particulière. Ces tests sont comparés expérimentalement pour déterminer leur probabilité de détecter incorrectement une différence quand aucune différence n'existe (erreur de type I ). ... Le test de McNemar a montré une faible erreur de type I. ... "

Eric Ringger
la source
2

À mon humble avis, il ne devrait pas y avoir de différence entre la distribution des scores et la distribution de tout autre type de données. Donc, fondamentalement, tout ce que vous avez à vérifier est de savoir si vos données sont distribuées normalement ou non ici . De plus, il existe d'excellents livres qui traitent en profondeur de cette question, voir ici (c'est-à-dire en bref: ils testent tous si le résultat de deux classificateurs est significativement différent .. et s'ils le font, ils peuvent être combinés en un modèle à un ensemble)

Dov
la source
Je pense qu'ils ne seront probablement pas distribués normalement. Dans le cas habituel, les scores seront positifs et asymétriques vers une extrémité de la plage (1 ou 0 selon que vous utilisez la précision ou l'erreur comme mesure).
tdc
@tdc: cette distribution de cas de la fonction (nombre d'erreurs de classification) -> (nombre de modèles avec ce nombre d'erreurs de classification) serait souvent à mon humble avis une distribution de poisson similaire.
jb.
@Dov: Tester quel modèle est significativement meilleur (c'est la question OP) et tester s'ils sont différents est une chose très différente.
jb.
@jb. Merci. mais j'ai dit significativement différent pas mieux ...
Dov
@Dov, votre premier lien est rompu - je ne peux pas dire où il est censé pointer.
Tamzin Blake
2

Il n'y a pas de test unique qui convient à toutes les situations; Je peux recommander le livre "Evaluating Learning Algorithms" de Nathalie Japkowicz et Mohak Shah, Cambridge University Press, 2011. Le fait qu'un livre de près de 400 pages puisse être écrit sur ce sujet suggère que ce n'est pas un problème simple. J'ai souvent constaté qu'il n'y avait pas de test qui réponde vraiment aux besoins de mon étude, il est donc important d'avoir une bonne compréhension des avantages et des inconvénients de la méthode qui sera finalement utilisée.

Un problème courant est que pour de grands ensembles de données, une différence statistiquement significative peut être obtenue avec une taille d'effet qui n'a aucune signification pratique.

Dikran Marsupial
la source