Est-il possible de calculer ou d'approximer la probabilité que quelque chose d'extrêmement improbable se produise une fois sur un grand échantillon, c'est-à-dire dans des situations où la probabilité est inférieure à l'erreur machine?
Par exemple, j'essayais de calculer la probabilité approximative que quelqu'un partage mon génome. Apparemment, un génome individuel peut être compressé sans perte à environ 4 Mo (2 ^ 25 bits). La chance pour l'un des 7 milliards d'humains de la planète de partager mon génome est donc de:
.
Ou en utilisant la méthode du problème d'anniversaire , la probabilité qu'il y ait au moins deux personnes avec des génomes identiques (ignorons les jumeaux, etc.) est quelque chose comme:
Le problème ici est que les nombres sont si petits ou si grands qu'il est impossible de deviner approximativement où ils se trouvent. Alors, existe-t-il un moyen d'approximer ces calculs ou des calculs similaires?
Je me rends compte que dans certains cas, les hypothèses qui sous-tendent les problèmes peuvent être différentes de plusieurs ordres de grandeur, mais même pouvoir se rapprocher de «plus probable qu'improbable» serait intéressant.
la source
Réponses:
En physique, un problème de Fermi est un exercice qui vous demande d'estimer un ordre de grandeur. Vous pouvez faire de même pour les probabilités. Avec la pratique, votre intuition devrait s'améliorer.
Comme l'a commenté Xi'an, vous pouvez utiliser des logarithmes. Peut-être que vous ne pouvez pas voir en un coup d'œil, mais vous pouvez voir que (ou ), ce qui l’implique.2225≫1010 225≫10 10log210≈33
Au lieu d'utiliser des formules compliquées pour calculer les valeurs exactes dont vous n'avez pas besoin, utilisez des estimations simples à calculer. Par exemple, la probabilité qu'il y ait au moins une autre personne avec votre génome (ignorant les jumeaux) est au plus le nombre attendu de personnes avec le même génome, un simple produit que vous devriez pouvoir estimer très petit. De même, la probabilité qu'une paire de personnes ait le même génome est au plus le nombre attendu de paires de personnes avec le même génome, environ12225(7×109)
Soit dit en passant, je n'accepte pas ce modèle de probabilité pour le génome. Je viens d'utiliser votre modèle pour des exemples. Ce modèle prédit que la similitude génétique généralement observée entre frères et sœurs est astronomiquement peu probable.
la source
Je pense que cela équivaut à un problème d'estimation des queues extrêmes d'une distribution de probabilité sans la taille extrêmement importante de l'échantillon nécessaire pour obtenir tout ou un petit nombre de valeurs observées à ces valeurs extrêmes. La seule façon de le faire est de supposer un modèle paramétrique qui suppose "automatiquement" une forme pour les queues de distribution. Mais si vous avez une justification pour le modèle de probabilité, vous pouvez obtenir les estimations que vous recherchez en ajustant la densité à partir de la famille paramétrique et en l'utilisant pour l'intégrer sur la zone de queue pour estimer cette petite probabilité. Si l'hypothèse paramétrique est fausse, l'estimation pourrait être très éloignée (par ordre de grandeur).
la source