Comment calculer une taille d'échantillon pour valider la correcte / inexactitude des enregistrements dans un tableau de données?

8

J'ai lu les réponses existantes sur CrossValidated (et ailleurs en ligne) et je ne trouve pas ce que je recherche, mais veuillez me signaler les sources existantes si je les ai manquées.

Disons que j'ai un ensemble de données de N = 1000 enregistrements, dont chacun peut être échantillonné manuellement et étiqueté comme 'Valide' ou 'Invalide' (ou Vrai / Faux, Droite / Mauvais, etc.).

Je veux atteindre un niveau de confiance donné que tous les enregistrements de l'ensemble de données sont valides. Lorsque j'échantillonne des enregistrements, si j'en trouve un seul invalide, je reviens en arrière et modifie la façon dont l'ensemble de données est créé pour corriger cela et des problèmes similaires.

Donc, après quelques itérations de repérage des invalides, de correction et de recréation de l'ensemble de données, je fais un échantillonnage qui n'inclut que les enregistrements valides. Si je veux être (par exemple) sûr à 99% ou à 95% que tous les enregistrements sont valides, quelle doit être la taille de mon échantillon? (Idéalement en fonction de N.)

J'ai essayé de jouer avec des tests hypergéométriques ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - dans ce contexte, je veux savoir ce que k devrait être, mais je n'ai pas de valeur fixe de K Je préfère plutôt choisir k de telle sorte que K soit probablement égal à N - mais définir K = N équivaut évidemment à une probabilité de 1! Je me demande également si je dois utiliser une approche bayésienne, mais je ne comprends pas assez les statistiques bayésiennes.

Stuart J Cuthbertson
la source
Aussi ici et ici .
Scortchi - Réintégrer Monica
Je vous remercie. Je pense que tous les trois sont utiles et le troisième (en particulier) est essentiellement le même scénario que moi. Je vais voir ce que je peux faire avec ces réponses - la Règle de Trois semble très utile!
Stuart J Cuthbertson
Je vous en prie. Modifiez votre question ici si quelque chose n'est pas clair.
Scortchi - Réintégrer Monica
Vous l'avez probablement déjà résolu: mais comme la question n'a pas été fermée en tant que doublon, et n'est pas tout à fait un doublon exact; J'ai pensé qu'il valait peut-être la peine d'énoncer une réponse.
Scortchi - Réintégrer Monica

Réponses:

7

Cela peut être défini comme testant l'hypothèse nulle qu'il existe des enregistrements non valides dans l'ensemble de données (K>0) par rapport à l'alternative qu'il n'y en a pas (K=0), étant donné qu'aucun enregistrement invalide n'a été trouvé dans l'échantillon (k=0). Le zéro proximal, le plus difficile à rejeter, est qu'il existe un seul enregistrement invalide (K=1). Remplacez-les par la fonction de masse de probabilité hypergéométrique pour un échantillon de taillen à partir d'un ensemble de données de taille N pour obtenir la valeur de p (il n'y a pas de valeurs plus petites possibles de k à prendre en considération):

f(k)=(Kk)(NKnk)(Nn)
=(10)(N1n0)(Nn)
=NnN=p

Ainsi, la taille minimale de l'échantillon requise pour pouvoir rejeter l'hypothèse nulle à un niveau de signification (ou de manière équivalente pour obtenir un intervalle de confiance unilatéral de ) est simplementnpα=1pK=0

n=(1p)N
n=αN

Avec et , . Si cela semble beaucoup, considérez que la validité d'un millier d'enregistrements est un critère strict; si vous envisagez de le détendre, la même approche peut être utilisée pour tester disons .N=1000α=0.95n=950K>9

Scortchi - Réintégrer Monica
la source
C'est une approche différente de ce que j'avais conclu en lisant les articles liés (c'est-à-dire en appliquant la règle des trois). Cela a du sens cependant et est en fait moins conservateur que la Règle de 3 (qui si je fais bien mes calculs, recommande d'échantillonner 3000 enregistrements pour N = 1000). La conclusion générale de "statistiques dit que vous pourriez aussi bien vérifier pratiquement tout si vous avez besoin d'être aussi certain" s'applique à l'une ou l'autre approche.
Stuart J Cuthbertson
Notez bien que la règle des trois ne s'applique approximativement qu'à l'échantillonnage sans remplacement d'une population finie; quand . nN
Scortchi - Réintégrer Monica