Comment calculer la taille de l'échantillon pour la simulation afin d'affirmer un certain niveau de qualité dans mes résultats?

8

Je suis un débutant en statistiques, donc je m'excuse à l'avance si je pose une question braindead. J'ai cherché des réponses à ma question, mais je trouve que beaucoup de sujets sont soit trop spécifiques, soit dépassent rapidement ce que je comprends actuellement.

J'ai quelques travaux de simulation qui incluent de grands ensembles de données qui deviennent impossibles à simuler de manière exhaustive. Pour le plus petit de mes ensembles de données, une analyse exhaustive présente la distribution suivante des résultats d'un total de 9180900 tests.

Résultat / fréquence:

  • 0 7183804
  • 1 1887089
  • 2 105296
  • 3 4571
  • 4 140

La signification des chiffres n'a pas d'importance; ce qui importe, c'est que les ensembles de données plus volumineux que je possède peuvent s'étendre en milliards de tests et devenir beaucoup trop longs à exécuter. Je dois limiter la charge de travail.

Je pense que je devrais pouvoir échantillonner à partir de l'ensemble complet de tests pour dériver une distribution pour l'échantillon, et déduire (dans certaines limites) que les résultats d'une simulation exhaustive présenteraient à peu près la même distribution. Il n'y a pas de biais inhérent aux tests qui sont effectués, donc le choix uniforme des entrées au hasard devrait fournir un échantillon valide.

Ce que je ne comprends pas encore, c'est comment procéder pour sélectionner la taille de mon échantillon. En particulier, la distribution présente une queue étrange, et je crains qu'un échantillonnage trop petit ne perde les basses fréquences. (Les 140 occurrences de '4' ne représentent que 0,0015% de la population!)

Donc, ma question est, quelle est la meilleure façon de calculer une taille d'échantillon avec laquelle je peux affirmer un certain niveau de qualité dans mes résultats?

Ou est-ce que je pose la mauvaise question?

Stephen
la source

Réponses:

6

Je pense que la réponse à votre question est quelques autres questions: à quel point un résultat de test donné doit-il être rare avant que vous vous en souciez? À quel point voulez-vous être certain que vous trouverez en fait au moins un test qui sort de cette façon s'il se produit juste au seuil où vous avez cessé de vous en soucier. Compte tenu de ces valeurs, vous pouvez effectuer une analyse de puissance. Je ne suis pas sûr à 100% si vous devez effectuer une analyse de puissance multinomiale (impliquant plusieurs résultats) ou non, je suppose qu'une analyse binomiale (soit le test rare ou non) fonctionnera très bien, par exemple http: / /statpages.org/proppowr.html . Alpha = 0,05, puissance = 80%, groupe sur la proportion 0, proportion du groupe 1, 0015. Taille d'échantillon relative, 1; total - juste au sud de 13 000 tests. À laquelle le nombre attendu de tests 4 est ~ 20.

Cela vous aidera à trouver le nombre de tests dont vous avez besoin pour détecter l'un de ces rares résultats. Cependant, si vous vous souciez vraiment de la fréquence relative, le problème est plus difficile. Je suppose que si vous multipliez simplement le N résultant de l'analyse de puissance par 20 ou 30, vous trouverez une estimation raisonnable.

En pratique, si vous n'avez pas vraiment besoin de décider du nombre de tests à l'avance, vous pouvez envisager d'exécuter des tests jusqu'à ce que vous obteniez 20 ou 30 résultats 4s. Au moment où vous avez obtenu autant de 4, vous devriez commencer à avoir une estimation raisonnable mais non absolue de leur fréquence relative IMO.

En fin de compte - il existe des compromis entre le nombre de tests exécutés et la précision. Vous devez savoir à quel point vous voulez que vos estimations soient précises avant de pouvoir vraiment déterminer combien est "suffisant".

russellpierce
la source
À droite, analyse de puissance. Je pense cependant que je me soucie peut-être de la fréquence relative. J'essaierai de lire cela aussi. Sans un nombre clairement défini de tests à exécuter, j'ai exécuté 2% des tests, sélectionnés de manière uniforme et aléatoire, sur chacun des ensembles de données. 2% est arbitraire, mais également traitable sur les grands ensembles de données. Cela signifie que la taille de mon échantillon augmente par rapport à la population de tests sur un ensemble de données, ce qui peut conduire à plus de tests que je n'en ai besoin sur les ensembles de données plus importants ...
Stephen
2

Je pense que l'analyse de puissance est trop élaborée pour ce que vous essayez de faire et pourrait vous décevoir.

Avec un échantillon au nord de 9 millions, je pense que votre estimation pour p = Pr(X > 3) = 0.000015est assez précise. Vous pouvez donc l'utiliser dans un modèle binomial simple (n, p) pour estimer la taille d'un échantillon.

Supposons que votre objectif soit d'observer au moins un événement "Large" avec une probabilité de 99,9%. Ensuite Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999, la taille d'échantillon souhaitée est n = ln(0.001)/ln(0.999985) = 460514.

Bien sûr, si vous vous sentez chanceux et que vous êtes prêt à prendre 10% de chances de manquer un événement de grande taille, vous n'avez besoin que d'un échantillon de n = 153505. Le triplement de la taille de l'échantillon réduit vos chances de manquer l'événement de grande taille d'un facteur de 100, donc j'irais pour les 460 000.

MAIS ... si vous cherchez CINQ, leur probabilité est juste au sud de 1/9180902 et pour observer au moins un de ceux avec une probabilité de 99,9%, vous auriez besoin d'un échantillon d'environ 63,4 millions!

Tenez compte des conseils de DrKNexus sur la mise à jour de votre estimation des probabilités pour les événements de grande ampleur, car ils peuvent ne pas être constants dans tous vos ensembles de données.

Mike Anderson
la source
Le Pr (X> 3) que vous fournissez est différent de celui des poseurs de questions 0.0015, vous voudrez peut-être le réviser.
russellpierce