Test de proportions et classificateur binaire

10

J'ai un prototype de machine qui produit des pièces.

Dans un premier test, la machine produit pièces et un classificateur binaire me dit que pièces sont défectueuses ( , généralement et ) et que les pièces sont bonnes.N1d 1 < N 1 d 1 / N 1 < 0,01 N 110 4 N 1 - d 111<N11/N1<0,01N1dix4N1-1

Ensuite, un technicien fait quelques changements dans la machine afin de diminuer le nombre de pièces défectueuses.

Dans un deuxième test et suivant, la machine modifiée produit pièces et le même classificateur binaire (intact) me dit que les pièces sont défectueuses, de toute façon est assez similaire à .d 2 d 2 / N 2 d 1 / N 1N222/N21/N1

Le technicien aimerait savoir si ses modifications sont efficaces.

En supposant que les classificateurs sont parfaits (sa sensibilité est de 100% et sa spécificité de 100%), je peux effectuer un test de proportions (avec R, je tape juste prop.test(c(d1,d2),c(N1,N2))).

Mais le classificateur n'est pas parfait, alors comment prendre en compte la sensibilité et la spécificité, toutes deux inconnues, du classificateur afin de bien répondre au technicien?

Alessandro Jacopson
la source
Pouvez-vous confirmer le taux de précision du classificateur?
Michelle
@Michelle Je connais sans erreur et d 2 mais je ne sais pas combien de pièces défectueuses sont mal classées comme bonnes. 12
Alessandro Jacopson
Re-bonjour. Pouvez-vous faire un échantillon aléatoire des bonnes pièces de N1 et N2, séparément, pour estimer le taux de faux positifs?
Michelle
1
Avec ces informations, pouvez-vous utiliser cette méthode pour comparer les changements? onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract voir aussi ici ncbi.nlm.nih.gov/pubmed/18224558 et autre idée ici, texte intégral: stat.colostate.edu/~bradb/papers/lrgraphfinal. pdf
Michelle
2
(+1) c'est une excellente question!
steffen

Réponses:

4

Je dérive donc cela des premiers principes, et je ne suis donc pas certain que ce soit correct. Voici mes pensées:

EDIT: Ce n'était pas tout à fait juste avant. Je l'ai mis à jour.

  1. Supposons que désigne la différence attendue entre le nombre réel de vrais positifs d 1 et le nombre produit par le classificateur binaire que nous appellerons ^ d 1 . Vous pouvez mesurer cela avec en exécutant votre classificateur sur un ensemble avec des étiquettes connues. Soustrayez le nombre de positifs réels du nombre de positifs produits par le classificateur, puis divisez par N pour obtenir α .αd1d1^Nα

  2. Ainsi, une estimation ponctuelle du rapport réel des pièces défectueuses est donnée par: . Autrement dit, le nombre observé de pièces défectueuses, moins le nombre attendu de faux positifs, plus le nombre attendu de faux négatifs.1N1^=1+αN1N1

  3. De même, 2N2^=2+αN2N2

  4. Alors maintenant, faisons un test d'hélice. Dans le test d'hélice standard, nous calculons d'abord le rapport groupé utilisé comme valeur nulle: . Donc, ici, nous avons mis dans nos estimations ponctuelles de ^ d 1p=p1N1+p2N2N1+N2 et^d21N1^ pour obtenir:p=d1+d2+α(N1+N2)2N2^p=1+2+α(N1+N2)N1+N2

  5. Et puis l'erreur standard est juste l'habituelle: p(1-p)(1N1+1N2)

  6. Et la statistique de test est la même: z=1N1-2N2se

Quelques réflexions sur l'interprétation:

  • p<0

  • Une autre façon de penser à cela est que, si le nombre de pièces défectueuses est dans la marge d'erreur pour le classificateur, alors bien sûr, nous ne pouvons pas dire s'il y a une différence: nous ne pouvons même pas dire si des pièces sont défectueuses!

α

  • αα

h

  • h2ααh2lowl,lowr)(hjeghl,hjeghr)α(hjeghl,lowr) (qui contient les deux intervalles antérieurs) devrait être un (1-h) * 100% IC pour la différence de proportions ... Je pense ...

α

John Doucette
la source
+1, merci. En 6, vous avez écrit "statique", vouliez-vous dire "statistique"?
Alessandro Jacopson
p<00<p<10<p<1
0,01(N1-1)100β=7100ββprop.test(7,100)
@uvts_cvs Oui, cela devrait être "statistique". Je vais le réparer dans un instant. Il y a aussi une faute de frappe dans le calcul de l'erreur standard, qui devrait être p * (1-p) à la place. P doit toujours être <1, sauf peut-être si votre classificateur est vraiment mauvais et que d est grand. Pour votre troisième commentaire, oui, c'est l'idée. Je ne sais tout simplement pas comment intégrer cette estimation dans le modèle. Peut-être que quelqu'un d'autre ici sait?
John Doucette du
αβ