Il existe de nombreuses situations où vous pouvez former plusieurs classificateurs différents ou utiliser plusieurs méthodes d'extraction de fonctionnalités différentes. Dans la littérature, les auteurs donnent souvent l'erreur de classification moyenne sur un ensemble de divisions aléatoires des données (c'est-à-dire après une validation croisée doublement imbriquée), et donnent parfois aussi des variances sur l'erreur sur les divisions. Cependant, cela ne suffit pas à lui seul pour dire qu'un classificateur est nettement meilleur qu'un autre. J'ai vu de nombreuses approches différentes à ce sujet - en utilisant des tests Chi-carré, t-test, ANOVA avec des tests post-hoc, etc.
Quelle méthode devrait être utilisée pour déterminer la signification statistique? La question sous-jacente est la suivante: quelles hypothèses devrions-nous faire concernant la distribution des scores de classification?
Réponses:
En plus de l'excellente réponse de @ jb., Permettez-moi d'ajouter que vous pouvez utiliser le test de McNemar sur le même ensemble de tests pour déterminer si un classificateur est nettement meilleur que l'autre. Cela ne fonctionnera que pour les problèmes de classification (ce que le travail original de McNemar appelle un «trait dichotomique»), ce qui signifie que les classificateurs ont raison ou tort, sans espace au milieu.
la source
Étant donné que la distribution des erreurs de classification est une distribution binaire (soit il y a une mauvaise classification, soit il n'y en a pas) --- je dirais que l'utilisation du chi carré n'est pas raisonnable.
En outre, seule la comparaison de l'efficacité des classificateurs qui fonctionnent sur les mêmes ensembles de données est raisonnable --- `` Aucun théorème de déjeuner gratuit '' déclare que tous les modèles ont la même efficacité moyenne sur tous les ensembles de données, de sorte que le modèle qui apparaîtra le mieux dépendra uniquement des ensembles de données qui ont été choisi de les former http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .
Si vous comparez l'efficacité des modèles A et B sur l'ensemble de données D, je pense que l'efficacité moyenne + la moyenne est suffisante pour faire un choix.
De plus, si l'on a de nombreux modèles qui ont une efficacité résonnable (et qui sont linéairement indépendants les uns des autres), je préfère construire un modèle d'ensemble que de simplement choisir le meilleur modèle.
la source
Je recommande l'article de Tom Dietterich intitulé "Tests statistiques approximatifs pour comparer les algorithmes d'apprentissage de classification supervisée". Voici le profil du papier sur CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Du résumé: "Cet article passe en revue cinq tests statistiques approximatifs pour déterminer si un algorithme d'apprentissage surpasse un autre sur une tâche d'apprentissage particulière. Ces tests sont comparés expérimentalement pour déterminer leur probabilité de détecter incorrectement une différence quand aucune différence n'existe (erreur de type I ). ... Le test de McNemar a montré une faible erreur de type I. ... "
la source
À mon humble avis, il ne devrait pas y avoir de différence entre la distribution des scores et la distribution de tout autre type de données. Donc, fondamentalement, tout ce que vous avez à vérifier est de savoir si vos données sont distribuées normalement ou non ici . De plus, il existe d'excellents livres qui traitent en profondeur de cette question, voir ici (c'est-à-dire en bref: ils testent tous si le résultat de deux classificateurs est significativement différent .. et s'ils le font, ils peuvent être combinés en un modèle à un ensemble)
la source
Il n'y a pas de test unique qui convient à toutes les situations; Je peux recommander le livre "Evaluating Learning Algorithms" de Nathalie Japkowicz et Mohak Shah, Cambridge University Press, 2011. Le fait qu'un livre de près de 400 pages puisse être écrit sur ce sujet suggère que ce n'est pas un problème simple. J'ai souvent constaté qu'il n'y avait pas de test qui réponde vraiment aux besoins de mon étude, il est donc important d'avoir une bonne compréhension des avantages et des inconvénients de la méthode qui sera finalement utilisée.
Un problème courant est que pour de grands ensembles de données, une différence statistiquement significative peut être obtenue avec une taille d'effet qui n'a aucune signification pratique.
la source