J'ai un prototype de machine qui produit des pièces.
Dans un premier test, la machine produit pièces et un classificateur binaire me dit que pièces sont défectueuses ( , généralement et ) et que les pièces sont bonnes.d 1 < N 1 d 1 / N 1 < 0,01 N 1 ≈ 10 4 N 1 - d 1
Ensuite, un technicien fait quelques changements dans la machine afin de diminuer le nombre de pièces défectueuses.
Dans un deuxième test et suivant, la machine modifiée produit pièces et le même classificateur binaire (intact) me dit que les pièces sont défectueuses, de toute façon est assez similaire à .d 2 d 2 / N 2 d 1 / N 1
Le technicien aimerait savoir si ses modifications sont efficaces.
En supposant que les classificateurs sont parfaits (sa sensibilité est de 100% et sa spécificité de 100%), je peux effectuer un test de proportions (avec R, je tape juste prop.test(c(d1,d2),c(N1,N2))
).
Mais le classificateur n'est pas parfait, alors comment prendre en compte la sensibilité et la spécificité, toutes deux inconnues, du classificateur afin de bien répondre au technicien?
la source
Réponses:
Je dérive donc cela des premiers principes, et je ne suis donc pas certain que ce soit correct. Voici mes pensées:
EDIT: Ce n'était pas tout à fait juste avant. Je l'ai mis à jour.
Supposons que désigne la différence attendue entre le nombre réel de vrais positifs d 1 et le nombre produit par le classificateur binaire que nous appellerons ^ d 1 . Vous pouvez mesurer cela avec en exécutant votre classificateur sur un ensemble avec des étiquettes connues. Soustrayez le nombre de positifs réels du nombre de positifs produits par le classificateur, puis divisez par N pour obtenir α .α ré1 ré1^ N α
Ainsi, une estimation ponctuelle du rapport réel des pièces défectueuses est donnée par: . Autrement dit, le nombre observé de pièces défectueuses, moins le nombre attendu de faux positifs, plus le nombre attendu de faux négatifs.ré1N1^= d1+ α ∗ N1N1
De même,ré2N2^= d2+α ∗ N2N2
Alors maintenant, faisons un test d'hélice. Dans le test d'hélice standard, nous calculons d'abord le rapport groupé utilisé comme valeur nulle: . Donc, ici, nous avons mis dans nos estimations ponctuelles de ^ d 1p = p1∗ N1+ p2∗ N2N1+ N2 et^d2ré1N1^ pour obtenir:p=d1+d2+α∗(N1+N2)ré2N2^ p = d1+ d2+ α ∗ ( N1+ N2)N1+ N2
Et puis l'erreur standard est juste l'habituelle:p ∗ ( 1 - p ) ∗ ( 1N1+ 1N2)------------------√
Et la statistique de test est la même:z= d1N1- d2N2s e
Quelques réflexions sur l'interprétation:
Une autre façon de penser à cela est que, si le nombre de pièces défectueuses est dans la marge d'erreur pour le classificateur, alors bien sûr, nous ne pouvons pas dire s'il y a une différence: nous ne pouvons même pas dire si des pièces sont défectueuses!
la source
prop.test(7,100)