Je suis un débutant en statistiques, donc je m'excuse à l'avance si je pose une question braindead. J'ai cherché des réponses à ma question, mais je trouve que beaucoup de sujets sont soit trop spécifiques, soit dépassent rapidement ce que je comprends actuellement.
J'ai quelques travaux de simulation qui incluent de grands ensembles de données qui deviennent impossibles à simuler de manière exhaustive. Pour le plus petit de mes ensembles de données, une analyse exhaustive présente la distribution suivante des résultats d'un total de 9180900 tests.
Résultat / fréquence:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
La signification des chiffres n'a pas d'importance; ce qui importe, c'est que les ensembles de données plus volumineux que je possède peuvent s'étendre en milliards de tests et devenir beaucoup trop longs à exécuter. Je dois limiter la charge de travail.
Je pense que je devrais pouvoir échantillonner à partir de l'ensemble complet de tests pour dériver une distribution pour l'échantillon, et déduire (dans certaines limites) que les résultats d'une simulation exhaustive présenteraient à peu près la même distribution. Il n'y a pas de biais inhérent aux tests qui sont effectués, donc le choix uniforme des entrées au hasard devrait fournir un échantillon valide.
Ce que je ne comprends pas encore, c'est comment procéder pour sélectionner la taille de mon échantillon. En particulier, la distribution présente une queue étrange, et je crains qu'un échantillonnage trop petit ne perde les basses fréquences. (Les 140 occurrences de '4' ne représentent que 0,0015% de la population!)
Donc, ma question est, quelle est la meilleure façon de calculer une taille d'échantillon avec laquelle je peux affirmer un certain niveau de qualité dans mes résultats?
Ou est-ce que je pose la mauvaise question?
Je pense que l'analyse de puissance est trop élaborée pour ce que vous essayez de faire et pourrait vous décevoir.
Avec un échantillon au nord de 9 millions, je pense que votre estimation pour
p = Pr(X > 3) = 0.000015
est assez précise. Vous pouvez donc l'utiliser dans un modèle binomial simple (n, p) pour estimer la taille d'un échantillon.Supposons que votre objectif soit d'observer au moins un événement "Large" avec une probabilité de 99,9%. Ensuite
Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999
, la taille d'échantillon souhaitée estn = ln(0.001)/ln(0.999985) = 460514
.Bien sûr, si vous vous sentez chanceux et que vous êtes prêt à prendre 10% de chances de manquer un événement de grande taille, vous n'avez besoin que d'un échantillon de n = 153505. Le triplement de la taille de l'échantillon réduit vos chances de manquer l'événement de grande taille d'un facteur de 100, donc j'irais pour les 460 000.
MAIS ... si vous cherchez CINQ, leur probabilité est juste au sud de 1/9180902 et pour observer au moins un de ceux avec une probabilité de 99,9%, vous auriez besoin d'un échantillon d'environ 63,4 millions!
Tenez compte des conseils de DrKNexus sur la mise à jour de votre estimation des probabilités pour les événements de grande ampleur, car ils peuvent ne pas être constants dans tous vos ensembles de données.
la source