Je suis intéressé à comprendre la différence entre la "probabilité" d'un événement aléatoire avec une probabilité particulière se produisant réellement la probabilité exacte qu'il est probable. c'est-à-dire si un événement a une probabilité de 1 sur 10000, quelle est la probabilité que dans 10000 essais il se produise exactement 1 fois, pas 2 fois, pas 0 fois, pas 3 fois, etc. et comment exprime-t-on (et explique-t-on) l'écart?
Si un événement a une probabilité de 1: 10 000, donc dans 100 000 essais, il est probable qu'il se produise 10 fois; dans 1 000 000 d'essais, il serait susceptible de se produire 100 fois, mais ne serait-il pas tout aussi probable qu'il se produise dans un ensemble donné de 1 000 000 d'essais un certain nombre de fois, par exemple: 98 fois, 99 fois, 101 fois, 96 fois, 102 fois, etc.
Statistiquement parlant, combien d'essais doivent être moyennés et pris en compte pour s'approcher d'une certitude statistique qu'un résultat particulier est réellement 1: 10000, et non 1: 9999 ou 1: 10001 ou 1: 10000,5, etc.?
Réponses:
Edit: Comme Mark L Stone le fait remarquer à juste titre, j'ai pris votre question comme impliquant que les procès sont indépendants sans établir que c'est le cas. Il s'agit d'une hypothèse critique (et peut ne pas être raisonnable dans de nombreuses situations). Néanmoins, je continuerai de répondre sur cette base, car je continue de penser que c'était votre intention.
Il en va de même pourn essais et une probabilité de 1/n , pour toute taille suffisamment grande n .
Les probabilités (pour tout grandn ) ressemble beaucoup à ceci (montrant le cas n = 10000):
Pas tout à fait: 99 et 100 ont la même chance, mais tout le reste a une chance plus faible:
(la probabilité continue de diminuer à mesure que vous vous éloignez).
Plus précisément, vous avez affaire à une distribution binomiale avecn=1000000 et p=1/10000 .
Depuisn est grand et p est petit, il est bien approximé par une distribution de Poisson avec une moyenneλ=np=100 .
Vous ne pouvez pas être certain qu'il s'agit en fait de 1/10000, car vous pouvez en être arbitrairement proche mais différent de lui.
Dansn essais, le nombre de succès escompté est de n p avec sd n p ( 1 - p )--------√≈n p--√ .
Sip = 1 / dix mille , et n =dix12 , le nombre de succès escompté est dix8 avec sd dix4 ; sip = une / 9999 le nombre de succès escompté serait 100 , 010 , 000 ... environ un écart-type - pas assez pour les distinguer "de manière fiable". Mais avecn = 4 ×dix12 tu es sur le point 2 sd est loin, et vous pouvez les distinguer plus facilement; c'est probablement aussi bas que la plupart des gens voudraient y aller. Àn =dix13 vous pouvez les distinguer assez bien (les chances de 1/10000 ressemblant à 1/9999 ou 1/10001 ou quoi que ce soit plus loin par hasard sont assez petites à ce stade).
Dis que tu étais contentdix13 essais pour distinguer p = 1 / dix mille de 1 / 9999 . Si vous vouliez exclure 1 / 9999,5 avec la même confiance que vous aviez pour exclure 1/9999, vous auriez besoin de 4 fois plus d'essais.
Vous pouvez voir que l’épinglage des proportions à de nombreux chiffres de précision (lorsquep est très petit) nécessite beaucoup d'essais; vous avez besoin d'une taille d'échantillon plusieurs fois supérieure à( 1 / p)3 pour obtenir une estimation suffisamment précise pour pouvoir exclure p = 1 / ( k ± 1 ) quand c'est vraiment 1 / k .
Oui, il pourrait être demandé à 10000 essais ou 1000 ou 100.
Simplifions les choses et prenons 10000 essais et 98 succès. On pourrait bien sûr prendre comme estimation ponctuelle de la probabilité de réussite 98/10000 = 0,0098 mais ce ne sera pas réellement la proportion sous-jacente, seulement une estimation de celle-ci. Cela pourrait bien être 0,944 ... ou 0,997 ... ou n'importe quel nombre d'autres valeurs.
Donc, une chose que les gens font est de construire un intervalle de valeurs qui serait (dans un certain sens) raisonnablement cohérent avec la proportion observée. Il existe deux philosophies principales de la statistique (statistiques bayésienne et fréquentiste) qui, dans de grands échantillons, auraient généralement tendance à générer des intervalles similaires mais qui ont des interprétations assez différentes.
Le plus commun serait un intervalle de confiance (fréquentiste) ; un intervalle pour le paramètre (p ) qui devrait (sur de nombreuses répétitions de la même expérience) inclure le paramètre dans une proportion donnée du temps.
Un intervalle bayésien typique commencerait par une distribution préalable sur le paramètre représentant votre incertitude quant à sa valeur, et utiliserait les données pour mettre à jour cette connaissance de celui-ci à une distribution postérieure et à partir de là obtenir un intervalle crédible .
Les intervalles de confiance sont très largement utilisés (bien qu'un intervalle crédible puisse se rapprocher de vos attentes quant à ce qu'un intervalle devrait faire). Dans le cas de l' intervalle de confiance de proportion binomiale , comme ici, il existe une variété d'approches, bien que dans de grands échantillons, elles vous donnent toutes à peu près le même intervalle.
Correct; vous vous attendez (avec des dés équitables) à obtenir entre 999,94 millions et 1000,06 millions de succès presque (mais pas tout à fait) chaque fois que vous l'essayez.
Il restera presque toujours cohérent avec lui (et avec une gamme d'autres valeurs proches). Ce qui se passe n'est pas que vous pouvez dire que c'est 1/10000, mais que l'intervalle des valeurs de probabilité cohérentes avec vos résultats se rétrécira à mesure que la taille de l'échantillon augmente.
la source
Je suis venu à cette question sur la base de son titre, tout en espérant trouver la probabilité d'un événement avecp =1n qui se produit au moins une foisn itérations. Je sais que votre question concernait exactement une fois, mais je suppose qu'elle est en quelque sorte liée.
Il ressemble àn suffisamment grande, cette probabilité tend à 1 / e ≃ 0,632 et est (de manière assez surprenante) presque indépendante de n .
Explication:
Supposons que je lance un dé 6 fois. La probabilité d'obtenir
1
au moins une fois de ces 6 essais est:De même, supposons qu'un événement ait une probabilité de
1/10000
. La probabilité que cet événement se produise au moins une fois sur les10000
essais est:Nous pouvons extrapoler cela pour tout
n
et obtenir:En traçant cette équation dans Grapher , nous obtenons quelque chose comme ceci:
Conclusion: bien que cela soit parfaitement logique, j'ai été en fait assez surpris par le fait que la probabilité qu'un événement aitp =1n passe au moins une fois sur n essaie est presque indépendant de n , pour n aussi peu que 3 déjà.
la source
Laissons s'établir sur un problème plus simple sur les dés. Permet de calculer la
probabilité deprobabilité que sur 6 lancers de dés, le score sera 1 exactement une fois.De combien de façons cela peut-il se produire [et leurs probabilités respectives]:
donc la probabilité totale que 1 ne soit marqué qu'une seule fois en 6 lancers est (3125/46656) * 6 = 3125/7776
Vous pouvez étendre le même développement pour les événements de probabilité 1 / n. La probabilité que l'événement se produise une seule fois dans n essais serait
Cela peut sembler un peu familier lorsque je le réorganise:
Autre partie de votre question: réduire l'écart à mesure que le nombre d'échantillons augmente, est déjà bien expliqué dans une autre réponse.
la source