Supposons qu'un jeu propose un événement qui, à la fin, donne une récompense ou ne donne rien. Le mécanisme exact pour déterminer si la récompense est donnée est inconnu, mais je suppose qu'un générateur de nombres aléatoires est utilisé, et si le résultat est supérieur à une valeur codée en dur, vous obtenez la récompense.
Si je veux essentiellement rétroconcevoir la valeur que les programmeurs ont utilisée pour déterminer la fréquence à laquelle la récompense est accordée (estimée à 15-30%), comment puis-je calculer le nombre d'échantillons dont j'ai besoin?
J'ai commencé avec la section "Estimateur de la probabilité réelle" ici: Checking_whether_a_coin_is_fair , mais je ne suis pas certain que je vais sur la bonne voie. J'obtenais les résultats de ~ 1000 échantillons nécessaires pour une erreur maximale de 3% à 95% de confiance.
En fin de compte, voici ce que j'essaie de résoudre:
- L'événement n ° 1 donne une récompense 1.0R, X% du temps
- L'événement # 2 récompense 1.4R, Y% du temps
Je voudrais estimer assez précisément X & Y pour déterminer quel événement est le plus efficace. Les grands échantillons sont un problème car je ne peux obtenir qu'un échantillon toutes les 20 minutes au maximum.
Réponses:
En supposant que vos essais individuels sont indépendants, vous observez une variable binomiale où vous décidez de et souhaitez estimer . Maintenant, l'estimateur du maximum de vraisemblance de , la fraction d'échantillon a la variance qui est obtenue pour . L'erreur standard est donc . Un intervalle de confiance approximatif sur un grand échantillon a une demi-largeur d'environ 2 erreurs standard, donc pour garder cela au maximum , disons, vous devez résoudre qui donnen p p p = X / n p ⋅ ( 1 - p )
la source
Je sais que c'est moins élégant, mais j'ai dû le simuler. Non seulement j'ai construit une simulation assez simple, mais elle est inélégante et lente à exécuter. C'est assez bon, cependant. Un avantage est que, tant que certaines bases sont correctes, cela me dira quand l'approche élégante tombera.
La taille de l'échantillon va varier en fonction de la valeur codée en dur.
Voici donc le code:
Et voici le graphique de la taille de l'échantillon en fonction de la prévalence de telle sorte que l'incertitude de l'IC à 95% pour la prévalence soit aussi proche que possible de 3% sans la dépasser.±
Loin de 50%, "un peu moins d'observations" semblent nécessaires, comme le suggère kjetil.
Je pense que vous pouvez obtenir une estimation décente de la prévalence avant 400 échantillons et ajuster votre stratégie d'échantillonnage au fur et à mesure. Je ne pense pas qu'il devrait y avoir un jogging au milieu, et vous pourriez donc faire passer N_loops jusqu'à 10e3, et faire passer le "by" dans "my_prev" à 0,001.
la source
Il semble que vous voulez estimer pour l' événement # 1 la valeur de et pour l' événement # 2 la valeur de . Vous pouvez facilement utiliser l'inégalité de Hoeffding pour déterminer les limites ici, ou si vous voulez des limites additives plutôt que multiplicatives, vous pouvez utiliser la limite de Chernoff .YX Y
la source