Comparaison de deux résultats d'exactitude de classificateur pour la signification statistique avec le test t

17

Je veux comparer l'exactitude de deux classificateurs pour la signification statistique. Les deux classificateurs sont exécutés sur le même ensemble de données. Cela m'amène à croire que je devrais utiliser un test t à échantillon unique d'après ce que j'ai lu .

Par exemple:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Est-ce le bon test à utiliser? Si oui, comment puis-je calculer si la différence de précision entre le classifieur est significative?

Ou devrais-je utiliser un autre test?

Chris
la source

Réponses:

14

J'opterais probablement pour le test de McNemar si vous ne formiez les classificateurs qu'une seule fois. David Barber propose également un test bayésien plutôt soigné qui me semble plutôt élégant, mais peu utilisé (il est également mentionné dans son livre ).

Juste pour ajouter, comme le dit Peter Flom, la réponse est presque certainement "oui" simplement en regardant la différence de performances et la taille de l'échantillon (je prends les chiffres cités sont les performances de l'ensemble de test plutôt que les performances de l'ensemble de formation).

Soit dit en passant, Japkowicz et Shah ont publié un livre récent sur «Évaluer les algorithmes d'apprentissage: une perspective de classification» , je ne l'ai pas lu, mais il ressemble à une référence utile pour ce genre de problèmes.

Dikran Marsupial
la source
1
J'exécute une validation croisée 10 fois pour obtenir ces résultats. Cela signifie-t-il qu'il s'agit en fait de différents ensembles de données. C'est la taille totale, qui est divisée pour le test / train en validation croisée
Chris
4
Les précisions pour chaque pli ne seront pas indépendantes, ce qui violera les hypothèses de la plupart des tests statistiques, mais ne sera probablement pas un gros problème. J'utilise souvent 100 divisions d'entraînement / test aléatoires, puis j'utilise le test de rang signé par Wilcoxon apparié (utilisez les mêmes divisions aléatoires pour les deux classificateurs). Je préfère ce type de test car j'utilise souvent de petits ensembles de données (car je suis intéressé par le sur-ajustement), de sorte que la variabilité entre les répartitions aléatoires a tendance à être comparable à la différence de performances entre les classificateurs.
Dikran Marsupial
2
(+1) pour le test de classement signé par Wilcoxon (et le lien vers le livre ... si le toc peut tenir ses promesses, ce livre peut devenir une lecture incontournable de toutes les ML: O)
steffen
3
J'ai également utilisé des tests de classement signés ainsi que des tests t appariés pour comparer les classificateurs. Cependant, chaque fois que je signale utiliser un test unilatéral à cet effet, les examinateurs ont du mal à le faire, alors je suis revenu à l'utilisation de tests bilatéraux!
BGreene
2
Étant donné que OP a précisé dans les commentaires que la question portait en fait sur la validation croisée, envisageriez-vous peut-être d'élargir votre réponse pour couvrir ce sujet? Nous pouvons alors modifier le Q. C'est un sujet important et il y a quelques questions très liées (ou même en double) mais aucune n'a de bonne réponse. Dans un commentaire ci-dessus, vous recommandez d'utiliser un test apparié sur les estimations de CV et dites que vous ne pensez pas que la non-indépendance est un gros problème ici. Pourquoi pas? Cela me semble être un problème potentiellement énorme!
amibe dit Réintégrer Monica
4

Je peux vous dire, sans même rien lancer, que la différence sera très statistiquement significative. Il passe l'IOTT (test de traumatisme interoculaire - il vous frappe entre les yeux).

Si vous voulez faire un test, vous pouvez le faire comme un test à deux proportions - cela peut être fait avec un test t à deux échantillons.

Vous voudrez peut-être décomposer la «précision» en ses composants; sensibilité et spécificité, ou faux positifs et faux négatifs. Dans de nombreuses applications, le coût des différentes erreurs est très différent.

Peter Flom - Réintégrer Monica
la source
D'accord - ce sera clairement important. Nitpick: Vous utiliseriez un test pour tester deux proportions (approximativement) - cela a à voir avec la convergence d'une distribution binomiale vers la normale lorsque n augmente. Voir section 5.2 fr.wikipedia.org/wiki/Statistical_hypothesis_testingzn
Macro
Après réflexion, un test peut toujours être asymptotiquement valide, par le CLT, mais il doit y avoir une raison pour laquelle le test z est généralement utilisé ici. tz
Macro
2
Le pourcentage de précision que j'ai mis dans ma question n'est qu'un exemple.
Chris
0

Puisque la précision, dans ce cas, est la proportion d'échantillons correctement classés, nous pouvons appliquer le test d'hypothèse concernant un système à deux proportions.

Soit p et p 2 soient les précisions obtenues respectivement à partir de classificateurs 1 et 2, et n est le nombre d'échantillons. Le nombre d'échantillons correctement classés dans les classificateurs 1 et 2 sont respectivement x 1 et x 2 .p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

La statistique de test est donnée par

Z=p^1p^22p^(1p^)/np^=(x1+x2)/2n

p2p1

  • H0:p1=p2 (hypothèse nulle indiquant que les deux sont égales)
  • Ha:p1<p2 (l'hypotyèse alternative affirmant que la plus récente est meilleure que l'existante)

La région de rejet est donnée par

Z<zαH0Ha

est obtenu à partir d'une distribution normale standard qui se rapporte à un niveau de signification, α . Par exemple zzααz0.5=1.645Z<1.6451α

Les références:

  1. R. Johnson et J. Freund, Miller and Freund's Probability and Statistics for Engineers, 8e éd. Prentice Hall International, 2011. (Source principale)
  2. Test de l'hypothèse-résumé de la formule concise . (Adopté de [1])
Ébe Isaac
la source
Ne devrait pas est la moyenne des p 1 etp^p^1p^2. p^=(x1+x2)/2n
Shiva Tp
Bien que je convienne qu'un test de proportions pourrait être utilisé, rien dans la question d'origine ne suggère qu'un test unilatéral soit approprié. De plus, "on pourrait dire avec une confiance de 95%" est une mauvaise interprétation courante. Voir par exemple ici: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg
@ShivaTp En effet. Merci d'avoir signalé la correction de faute de frappe si nécessaire. Modification confirmée.
Ébe Isaac