Sur la base de la précision estimée de la classification, je veux tester si un classificateur est statistiquement meilleur sur un ensemble de base qu'un autre classificateur. Pour chaque classificateur, je sélectionne un échantillon de formation et de test au hasard dans l'ensemble de base, j'entraîne le modèle et teste le modèle. Je fais cela dix fois pour chaque classificateur. J'ai donc dix mesures d'exactitude de classification d'estimation pour chaque classificateur. Comment puis-je tester statistiquement si le est un meilleur classificateur que le sur l'ensemble de données de base. Quel test t convient-il d'utiliser?
machine-learning
classification
t-test
entropie
la source
la source
Réponses:
Un examen et une critique de certaines approches test t est donnée dans Le choix entre deux algorithmes d'apprentissage basés sur des tests étalonnés , tests statistiques approximatives pour comparer les algorithmes d' apprentissage Classification supervisée , et sur les classificateurs Comparaison: Les pièges à éviter et une approche recommandée
la source
Je n'ai pas le livre Fleiss sous la main, donc tout ça c'est l'IIRC.
Répondre à la question de @ JohnMoeller dans les commentaires pour le moment: la question d'origine est à mon humble avis comme elle est sans réponse.
ce faisant, vous vous retrouvez avec une table de contingence 2 x 2 donnant au classificateur 1 correct / faux contre le classificateur 2 correct / faux. C'est le point de départ du test de McNemar . Il s'agit donc d'une comparaison par paires, qui est plus puissante que la comparaison de proportions "indépendantes" (qui ne sont pas complètement indépendantes si elles proviennent du tirage aléatoire du même échantillon fini).
Je ne peux pas rechercher les "petits caractères" de McNemar pour le moment, mais 30 échantillons, ce n'est pas beaucoup. Ainsi, vous devrez peut-être même passer du test exact de McNemar au test exact de Fisher [ou autre chose] qui calcule les probabilités binomiales.
Moyens de proportions:
Peu importe que vous testiez un seul et même classificateur 10x avec 10 cas de test ou une fois avec tous ces 100 cas (le tableau 2 x 2 ne compte que tous les cas de test).
Si les 10 estimations de précision pour chaque classificateur dans la question d'origine sont obtenues par maintien aléatoire ou validation croisée 10 fois ou 10 fois hors bootstrap, l'hypothèse est généralement que les 10 modèles de substitution calculés pour chaque classificateur sont équivalents (= ont la même précision), de sorte que les résultats des tests peuvent être regroupés *. Pour une validation croisée 10 fois, vous supposez que la taille de l'échantillon de test est égale au nombre total d'échantillons de test. Pour les autres méthodes, je n'en suis pas si sûr: vous pouvez tester le même cas plus d'une fois. Selon les données / le problème / l'application, cela ne représente pas autant d'informations que de tester un nouveau cas.
la source