Je veux comparer l'exactitude de deux classificateurs pour la signification statistique. Les deux classificateurs sont exécutés sur le même ensemble de données. Cela m'amène à croire que je devrais utiliser un test t à échantillon unique d'après ce que j'ai lu .
Par exemple:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
Est-ce le bon test à utiliser? Si oui, comment puis-je calculer si la différence de précision entre le classifieur est significative?
Ou devrais-je utiliser un autre test?
Je peux vous dire, sans même rien lancer, que la différence sera très statistiquement significative. Il passe l'IOTT (test de traumatisme interoculaire - il vous frappe entre les yeux).
Si vous voulez faire un test, vous pouvez le faire comme un test à deux proportions - cela peut être fait avec un test t à deux échantillons.
Vous voudrez peut-être décomposer la «précision» en ses composants; sensibilité et spécificité, ou faux positifs et faux négatifs. Dans de nombreuses applications, le coût des différentes erreurs est très différent.
la source
Puisque la précision, dans ce cas, est la proportion d'échantillons correctement classés, nous pouvons appliquer le test d'hypothèse concernant un système à deux proportions.
Soit p et p 2 soient les précisions obtenues respectivement à partir de classificateurs 1 et 2, et n est le nombre d'échantillons. Le nombre d'échantillons correctement classés dans les classificateurs 1 et 2 sont respectivement x 1 et x 2 .p^1 p^2 n x1 x2
La statistique de test est donnée par
La région de rejet est donnée par
où est obtenu à partir d'une distribution normale standard qui se rapporte à un niveau de signification, α . Par exemple zzα α z0.5=1.645 Z<−1.645 1−α
Les références:
la source